Optimize the VME shader for MPEG2 encoding on Gen8
authorZhao Yakui <yakui.zhao@intel.com>
Thu, 15 Aug 2013 07:18:39 +0000 (15:18 +0800)
committerXiang, Haihao <haihao.xiang@intel.com>
Thu, 27 Feb 2014 02:22:18 +0000 (10:22 +0800)
Signed-off-by: Zhao Yakui <yakui.zhao@intel.com>
src/shaders/vme/mpeg2_inter_gen8.asm
src/shaders/vme/mpeg2_inter_gen8.g8b

index ace191e..d7cb52d 100644 (file)
@@ -548,6 +548,11 @@ send (8)
         rlen vme_wb_length
         {align1};
 
+and.z.f0.0 (1)         null:uw mb_hwdep<0,1,0>:uw              0x04:uw   {align1};
+(-f0.0) jmpi (1) vme_run_again;
+nop;
+vme_mv_output:
+
 add  (1) obw_m0.8<1>:UD         obw_m0.8<0,1,0>:UD 0x02:UD {align1};
 mov  (8) msg_reg0.0<1>:UD       obw_m0<8,8,1>:UD {align1};
 /* write FME info */
@@ -722,3 +727,142 @@ add       (2)     RET_ARG<1>:w            TEMP_VAR0.0<2,2,1>:w    TEMP_VAR1.0<2,2,1>:w    {align1};
 nop;
 nop;
 
+vme_run_again:
+
+asr    (2)     mb_ref_win.0<1>:w       mb_mvp_ref.0<2,2,1>:w   2:w     {align1};
+mov    (2)     tmp_reg0.0<1>:w         mb_ref_win.0<2,2,1>:w           {align1};
+add    (2)     mb_ref_win.8<1>:w       mb_ref_win.0<2,2,1>:w   3:w     {align1};
+and    (2)     mb_ref_win.16<1>:uw     mb_ref_win.8<2,2,1>:uw  0xFFFC:uw {align1};
+
+cmp.l.f0.0     (1) null:w      tmp_reg0.0<0,1,0>:w     0:w     {align1};
+(f0.0) mul     (1) tmp_reg0.0<1>:w     tmp_reg0.0<0,1,0>:w     -1:w    {align1};
+cmp.l.f0.0     (1) null:w      tmp_reg0.2<0,1,0>:w     0:w     {align1};
+(f0.0) mul     (1) tmp_reg0.2<1>:w     tmp_reg0.2<0,1,0>:w     -1:w    {align1};
+
+cmp.ge.f0.0    (1) null:w      tmp_reg0.0<0,1,0>:w     4:w     {align1};
+(f0.0) jmpi (1)        vme_start;
+cmp.ge.f0.0    (1) null:w      tmp_reg0.2<0,1,0>:w     4:w     {align1};
+(f0.0) jmpi (1)        vme_start;
+
+jmpi (1) vme_done;
+
+vme_start:
+       mov (8) tmp_vme_wb0.0<1>:ud     vme_wb0.0<8,8,1>:ud     {align1};
+       mov (8) tmp_vme_wb1.0<1>:ud     vme_wb1.0<8,8,1>:ud     {align1};
+
+/* Calibrate the ref window for MPEG2 */
+mov  (1) vme_m0.0<1>:W         -16:W                   {align1};
+mov  (1) vme_m0.2<1>:W         -12:W                   {align1};
+mov  (1) INPUT_ARG0.8<1>:ud    vme_m0.8<0,1,0>:ud      {align1};
+add  (2) INPUT_ARG0.0<1>:w     vme_m0.0<2,2,1>:w       mb_ref_win.16<2,2,1>:w  {align1};
+mov  (8) INPUT_ARG1.0<1>:ud    pic_ref.0<8,8,1>:ud     {align1};
+
+SAVE_RET       {align1};
+jmpi   (1)     ref_boundary_check;
+mov  (2) vme_m0.0<1>:w         RET_ARG<2,2,1>:w        {align1};
+
+/* IME search */
+mov  (1) vme_m0.12<1>:UD        SEARCH_CTRL_SINGLE + INTER_PART_MASK + INTER_SAD_HAAR:UD {align1};    /* 16x16 Source, harr */
+mov  (1) vme_m0.22<1>:UW        REF_REGION_SIZE {align1};         /* Reference Width&Height, 48x40 */
+
+mov  (1) vme_m0.4<1>:UD                vme_m0.0<0,1,0>:UD      {align1};
+
+mov  (8) vme_msg_0.0<1>:UD      vme_m0.0<8,8,1>:UD {align1};
+
+mov  (8) vme_m1.0<1>:ud                0x0:UD  {align1};
+
+mov  (1) vme_m1.0<1>:UD         ADAPTIVE_SEARCH_ENABLE:ud {align1} ;
+/* the Max MV number is passed by constant buffer */
+mov  (1) vme_m1.4<1>:UB         r4.28<0,1,0>:UB {align1};          
+mov  (1) vme_m1.8<1>:UD         START_CENTER + SEARCH_PATH_LEN:UD {align1};
+mov  (8) vme_msg_1.0<1>:UD      vme_m1.0<8,8,1>:UD {align1};
+
+/* Setup the Cost center */
+/* currently four 8x8 share the same cost center */
+mov  (4) vme_m3.0<2>:ud                mv_cc_ref.0<0,1,0>:ud   {align1};
+mov  (4) vme_m3.4<2>:ud                mv_cc_ref.0<0,1,0>:ud   {align1};
+
+mov (8) vme_msg_3<1>:UD                vme_m3.0<8,8,1>:UD {align1};
+mov (8) vme_msg_2<1>:UD                vme_m2.0<8,8,1>:UD {align1};
+
+/* M4/M5 search path */
+mov  (1) vme_msg_4.0<1>:UD     0x01010101:UD {align1};
+mov  (1) vme_msg_4.4<1>:UD     0x10010101:UD {align1};
+mov  (1) vme_msg_4.8<1>:UD     0x0F0F0F0F:UD {align1};
+mov  (1) vme_msg_4.12<1>:UD    0x100F0F0F:UD {align1};
+mov  (1) vme_msg_4.16<1>:UD    0x01010101:UD {align1};
+mov  (1) vme_msg_4.20<1>:UD    0x10010101:UD {align1};
+mov  (1) vme_msg_4.24<1>:UD    0x0F0F0F0F:UD {align1};
+mov  (1) vme_msg_4.28<1>:UD    0x100F0F0F:UD {align1};
+
+mov  (1) vme_msg_5.0<1>:UD     0x01010101:UD {align1};
+mov  (1) vme_msg_5.4<1>:UD     0x10010101:UD {align1};
+mov  (1) vme_msg_5.8<1>:UD     0x0F0F0F0F:UD {align1};
+mov  (1) vme_msg_5.12<1>:UD    0x000F0F0F:UD {align1};
+
+mov  (4) vme_msg_5.16<1>:UD    0x0:UD {align1};
+
+send (8)
+        vme_msg_ind
+        vme_wb<1>:UD
+        null
+        vme(
+                BIND_IDX_VME,
+                0,
+                0,
+                VME_IME_MESSAGE_TYPE
+        )
+        mlen ime_vme_msg_length
+        rlen vme_wb_length {align1};
+
+/* Set Macroblock-shape/mode for FBR */
+
+mov  (1) vme_m2.20<1>:UD       0x0:UD {align1};
+mov  (1) vme_m2.21<1>:UB       vme_wb.25<0,1,0>:UB     {align1};
+mov  (1) vme_m2.22<1>:UB       vme_wb.26<0,1,0>:UB     {align1};
+
+and  (1) tmp_reg0.0<1>:UW      vme_wb.0<0,1,0>:UW      0x03:UW {align1};
+mov  (1) vme_m2.20<1>:UB       tmp_reg0.0<0,1,0>:UB    {align1};
+
+/* Send FBR message into CRE */
+
+mov  (8) vme_msg_4.0<1>:UD       vme_wb1.0<8,8,1>:UD {align1};
+mov  (8) vme_msg_5.0<1>:ud       vme_wb2.0<8,8,1>:ud {align1};
+mov  (8) vme_msg_6.0<1>:ud       vme_wb3.0<8,8,1>:ud {align1};
+mov  (8) vme_msg_7.0<1>:ud       vme_wb4.0<8,8,1>:ud {align1};                
+
+mov  (1) vme_m0.12<1>:UD       INTER_SAD_HAAR + SUB_PEL_MODE_HALF + FBR_BME_DISABLE:UD {align1};    /* 16x16 Source, 1/2 pixel, harr, BME disable */
+/* Bilinear filter */
+mov  (1) tmp_reg0.0<1>:uw      0x04:uw {align1};
+add  (1) vme_m1.30<1>:ub       vme_m1.30<0,1,0>:ub     tmp_reg0.0<0,1,0>:ub    {align1};
+
+mov  (8) vme_msg_0.0<1>:UD     vme_m0.0<8,8,1>:UD  {align1};
+mov  (8) vme_msg_1.0<1>:UD     vme_m1.0<8,8,1>:UD  {align1};
+
+mov  (8) vme_msg_2.0<1>:UD             vme_m2.0<8,8,1>:UD      {align1};
+mov  (8) vme_msg_3.0<1>:UD             vme_m3.0<8,8,1>:UD      {align1};
+
+/* after verification it will be passed by using payload */
+send (8)
+        vme_msg_ind
+        vme_wb<1>:UD
+        null
+        cre(
+                BIND_IDX_VME,
+                VME_FBR_MESSAGE_TYPE
+        )
+        mlen fbr_vme_msg_length
+        rlen vme_wb_length
+        {align1};
+
+cmp.l.f0.0 (1) null:uw vme_wb0.8<0,1,0>:uw     tmp_vme_wb0.8<0,1,0>:uw {align1};
+(f0.0) jmpi (1) vme_done;
+mov    (8)     vme_wb0.0<1>:ud tmp_vme_wb0.0<8,8,1>:ud {align1};
+mov    (8)     vme_wb1.0<1>:ud tmp_vme_wb1.0<8,8,1>:ud {align1};
+
+vme_done:
+       jmpi (1) vme_mv_output;
+nop;
+nop;
+nop;
+
index 1815838..7cee07e 100644 (file)
    { 0x00000001, 0x2fa41a68, 0x00000b04, 0x00000000 },
    { 0x00000001, 0x2fa81a68, 0x00000b24, 0x00000000 },
    { 0x00000040, 0x2fe00008, 0x06001400, 0x00000020 },
-   { 0x00000020, 0x34000000, 0x0e001400, 0x00000750 },
+   { 0x00000020, 0x34000000, 0x0e001400, 0x00000780 },
    { 0x00000001, 0x2ac01a68, 0x00000fe4, 0x00000000 },
    { 0x00000001, 0x2fa01a68, 0x00000ae6, 0x00000000 },
    { 0x00000001, 0x2fa41a68, 0x00000b06, 0x00000000 },
    { 0x00000001, 0x2fa81a68, 0x00000b26, 0x00000000 },
    { 0x00000040, 0x2fe00008, 0x06001400, 0x00000020 },
-   { 0x00000020, 0x34000000, 0x0e001400, 0x000006f0 },
+   { 0x00000020, 0x34000000, 0x0e001400, 0x00000720 },
    { 0x00000001, 0x2ac21a68, 0x00000fe4, 0x00000000 },
    { 0x00200001, 0x2a201a68, 0x00450ae4, 0x00000000 },
    { 0x00000001, 0x24401e68, 0x18000000, 0xfff0fff0 },
    { 0x00000001, 0x2fa80208, 0x00000448, 0x00000000 },
    { 0x00600001, 0x2fc00208, 0x008d0a40, 0x00000000 },
    { 0x00000040, 0x2fe00008, 0x06001400, 0x00000020 },
-   { 0x00000020, 0x34000000, 0x0e001400, 0x00000780 },
+   { 0x00000020, 0x34000000, 0x0e001400, 0x000007b0 },
    { 0x00200001, 0x24401a68, 0x00450fe4, 0x00000000 },
    { 0x00600001, 0x25600208, 0x008d0020, 0x00000000 },
    { 0x00600001, 0x28400208, 0x008d0560, 0x00000000 },
    { 0x00600001, 0x28400208, 0x008d0560, 0x00000000 },
    { 0x00600001, 0x28600208, 0x008d0580, 0x00000000 },
    { 0x0d600031, 0x21800a08, 0x0e000800, 0x10786000 },
+   { 0x01000005, 0x20001240, 0x160000a6, 0x00040004 },
+   { 0x00110020, 0x34000000, 0x0e001400, 0x000004a0 },
+   { 0x0000007e, 0x00000000, 0x00000000, 0x00000000 },
    { 0x00000040, 0x24880208, 0x06000488, 0x00000002 },
    { 0x00600001, 0x28000208, 0x008d0480, 0x00000000 },
    { 0x00000001, 0x28200208, 0x00000180, 0x00000000 },
    { 0x00000001, 0x34000200, 0x00000fe0, 0x00000000 },
    { 0x0000007e, 0x00000000, 0x00000000, 0x00000000 },
    { 0x0000007e, 0x00000000, 0x00000000, 0x00000000 },
+   { 0x0020000c, 0x2a801a68, 0x1e450ac0, 0x00020002 },
+   { 0x00200001, 0x24001a68, 0x00450a80, 0x00000000 },
+   { 0x00200040, 0x2a881a68, 0x1e450a80, 0x00030003 },
+   { 0x00200005, 0x2a901248, 0x16450a88, 0xfffcfffc },
+   { 0x05000010, 0x20001a60, 0x1e000400, 0x00000000 },
+   { 0x00010041, 0x24001a68, 0x1e000400, 0xffffffff },
+   { 0x05000010, 0x20001a60, 0x1e000402, 0x00000000 },
+   { 0x00010041, 0x24021a68, 0x1e000402, 0xffffffff },
+   { 0x04000010, 0x20001a60, 0x1e000400, 0x00040004 },
+   { 0x00010020, 0x34000000, 0x0e001400, 0x00000030 },
+   { 0x04000010, 0x20001a60, 0x1e000402, 0x00040004 },
+   { 0x00010020, 0x34000000, 0x0e001400, 0x00000010 },
+   { 0x00000020, 0x34000000, 0x0e001400, 0x000003a0 },
+   { 0x00600001, 0x2c800208, 0x008d0180, 0x00000000 },
+   { 0x00600001, 0x2ca00208, 0x008d01a0, 0x00000000 },
+   { 0x00000001, 0x24401e68, 0x18000000, 0xfff0fff0 },
+   { 0x00000001, 0x24421e68, 0x18000000, 0xfff4fff4 },
+   { 0x00000001, 0x2fa80208, 0x00000448, 0x00000000 },
+   { 0x00200040, 0x2fa01a68, 0x1a450440, 0x00450a90 },
+   { 0x00600001, 0x2fc00208, 0x008d0a40, 0x00000000 },
+   { 0x00000040, 0x2fe00008, 0x06001400, 0x00000020 },
+   { 0x00000020, 0x34000000, 0x0e001400, 0xfffffca0 },
+   { 0x00200001, 0x24401a68, 0x00450fe4, 0x00000000 },
+   { 0x00000001, 0x244c0608, 0x00000000, 0x7e200000 },
+   { 0x00000001, 0x24561648, 0x10000000, 0x28302830 },
+   { 0x00000001, 0x24440208, 0x00000440, 0x00000000 },
+   { 0x00600001, 0x28000208, 0x008d0440, 0x00000000 },
+   { 0x00600001, 0x24600608, 0x00000000, 0x00000000 },
+   { 0x00000001, 0x24600608, 0x00000000, 0x00000002 },
+   { 0x00000001, 0x24642288, 0x0000009c, 0x00000000 },
+   { 0x00000001, 0x24680608, 0x00000000, 0x30003030 },
+   { 0x00600001, 0x28200208, 0x008d0460, 0x00000000 },
+   { 0x00400001, 0x45800208, 0x00000a20, 0x00000000 },
+   { 0x00400001, 0x45840208, 0x00000a20, 0x00000000 },
+   { 0x00600001, 0x28600208, 0x008d0580, 0x00000000 },
+   { 0x00600001, 0x28400208, 0x008d0560, 0x00000000 },
+   { 0x00000001, 0x28800608, 0x00000000, 0x01010101 },
+   { 0x00000001, 0x28840608, 0x00000000, 0x10010101 },
+   { 0x00000001, 0x28880608, 0x00000000, 0x0f0f0f0f },
+   { 0x00000001, 0x288c0608, 0x00000000, 0x100f0f0f },
+   { 0x00000001, 0x28900608, 0x00000000, 0x01010101 },
+   { 0x00000001, 0x28940608, 0x00000000, 0x10010101 },
+   { 0x00000001, 0x28980608, 0x00000000, 0x0f0f0f0f },
+   { 0x00000001, 0x289c0608, 0x00000000, 0x100f0f0f },
+   { 0x00000001, 0x28a00608, 0x00000000, 0x01010101 },
+   { 0x00000001, 0x28a40608, 0x00000000, 0x10010101 },
+   { 0x00000001, 0x28a80608, 0x00000000, 0x0f0f0f0f },
+   { 0x00000001, 0x28ac0608, 0x00000000, 0x000f0f0f },
+   { 0x00400001, 0x28b00608, 0x00000000, 0x00000000 },
+   { 0x08600031, 0x21800a08, 0x0e000800, 0x0c784000 },
+   { 0x00000001, 0x25740608, 0x00000000, 0x00000000 },
+   { 0x00000001, 0x25752288, 0x00000199, 0x00000000 },
+   { 0x00000001, 0x25762288, 0x0000019a, 0x00000000 },
+   { 0x00000005, 0x24001248, 0x16000180, 0x00030003 },
+   { 0x00000001, 0x25742288, 0x00000400, 0x00000000 },
+   { 0x00600001, 0x28800208, 0x008d01a0, 0x00000000 },
+   { 0x00600001, 0x28a00208, 0x008d01c0, 0x00000000 },
+   { 0x00600001, 0x28c00208, 0x008d01e0, 0x00000000 },
+   { 0x00600001, 0x28e00208, 0x008d0200, 0x00000000 },
+   { 0x00000001, 0x244c0608, 0x00000000, 0x00241000 },
+   { 0x00000001, 0x24001648, 0x10000000, 0x00040004 },
+   { 0x00000040, 0x247e2288, 0x2200047e, 0x00000400 },
+   { 0x00600001, 0x28000208, 0x008d0440, 0x00000000 },
+   { 0x00600001, 0x28200208, 0x008d0460, 0x00000000 },
+   { 0x00600001, 0x28400208, 0x008d0560, 0x00000000 },
+   { 0x00600001, 0x28600208, 0x008d0580, 0x00000000 },
+   { 0x0d600031, 0x21800a08, 0x0e000800, 0x10786000 },
+   { 0x05000010, 0x20001240, 0x12000188, 0x00000c88 },
+   { 0x00010020, 0x34000000, 0x0e001400, 0x00000020 },
+   { 0x00600001, 0x21800208, 0x008d0c80, 0x00000000 },
+   { 0x00600001, 0x21a00208, 0x008d0ca0, 0x00000000 },
+   { 0x00000020, 0x34000000, 0x0e001400, 0xfffff6f0 },
+   { 0x0000007e, 0x00000000, 0x00000000, 0x00000000 },
+   { 0x0000007e, 0x00000000, 0x00000000, 0x00000000 },
+   { 0x0000007e, 0x00000000, 0x00000000, 0x00000000 },