src/third_party/ffmpeg/libavcodec/x86/hevc_deblock.asm

   1 ;*****************************************************************************
   2 ;* SSE2-optimized HEVC deblocking code
   3 ;*****************************************************************************
   4 ;* Copyright (C) 2013 VTT
   5 ;*
   6 ;* Authors: Seppo Tomperi <seppo.tomperi@vtt.fi>
   7 ;*
   8 ;* This file is part of FFmpeg.
   9 ;*
  10 ;* FFmpeg is free software; you can redistribute it and/or
  11 ;* modify it under the terms of the GNU Lesser General Public
  12 ;* License as published by the Free Software Foundation; either
  13 ;* version 2.1 of the License, or (at your option) any later version.
  14 ;*
  15 ;* FFmpeg is distributed in the hope that it will be useful,
  16 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
  17 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
  18 ;* Lesser General Public License for more details.
  19 ;*
  20 ;* You should have received a copy of the GNU Lesser General Public
  21 ;* License along with FFmpeg; if not, write to the Free Software
  22 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
  23 ;******************************************************************************
  24
  25 %include "libavutil/x86/x86util.asm"
  26
  27 SECTION_RODATA
  28
  29 pw_pixel_max_12: times 8 dw ((1 << 12)-1)
  30 pw_pixel_max_10: times 8 dw ((1 << 10)-1)
  31 pw_m1:           times 8 dw -1
  32 pw_m2:           times 8 dw -2
  33 pd_1 :           times 4 dd  1
  34
  35 cextern pw_4
  36 cextern pw_8
  37
  38 SECTION .text
  39 INIT_XMM sse2
  40
  41 ; expands to [base],...,[base+7*stride]
  42 %define PASS8ROWS(base, base3, stride, stride3) \
  43     [base], [base+stride], [base+stride*2], [base3], \
  44     [base3+stride], [base3+stride*2], [base3+stride3], [base3+stride*4]
  45
  46 ; in: 8 rows of 4 bytes in %4..%11
  47 ; out: 4 rows of 8 words in m0..m3
  48 %macro TRANSPOSE4x8B_LOAD 8
  49     movd             m0, %1
  50     movd             m2, %2
  51     movd             m1, %3
  52     movd             m3, %4
  53
  54     punpcklbw        m0, m2
  55     punpcklbw        m1, m3
  56     punpcklwd        m0, m1
  57
  58     movd             m4, %5
  59     movd             m6, %6
  60     movd             m5, %7
  61     movd             m3, %8
  62
  63     punpcklbw        m4, m6
  64     punpcklbw        m5, m3
  65     punpcklwd        m4, m5
  66
  67     punpckhdq        m2, m0, m4
  68     punpckldq        m0, m4
  69
  70     pxor             m5, m5
  71     punpckhbw        m1, m0, m5
  72     punpcklbw        m0, m5
  73     punpckhbw        m3, m2, m5
  74     punpcklbw        m2, m5
  75 %endmacro
  76
  77 ; in: 4 rows of 8 words in m0..m3
  78 ; out: 8 rows of 4 bytes in %1..%8
  79 %macro TRANSPOSE8x4B_STORE 8
  80     packuswb         m0, m0
  81     packuswb         m1, m1
  82     packuswb         m2, m2
  83     packuswb         m3, m3
  84
  85     punpcklbw        m0, m1
  86     punpcklbw        m2, m3
  87
  88     punpckhwd        m6, m0, m2
  89     punpcklwd        m0, m2
  90
  91     movd             %1, m0
  92     pshufd           m0, m0, 0x39
  93     movd             %2, m0
  94     pshufd           m0, m0, 0x39
  95     movd             %3, m0
  96     pshufd           m0, m0, 0x39
  97     movd             %4, m0
  98
  99     movd             %5, m6
 100     pshufd           m6, m6, 0x39
 101     movd             %6, m6
 102     pshufd           m6, m6, 0x39
 103     movd             %7, m6
 104     pshufd           m6, m6, 0x39
 105     movd             %8, m6
 106 %endmacro
 107
 108 ; in: 8 rows of 4 words in %4..%11
 109 ; out: 4 rows of 8 words in m0..m3
 110 %macro TRANSPOSE4x8W_LOAD 8
 111     movq             m0, %1
 112     movq             m2, %2
 113     movq             m1, %3
 114     movq             m3, %4
 115
 116     punpcklwd        m0, m2
 117     punpcklwd        m1, m3
 118     punpckhdq        m2, m0, m1
 119     punpckldq        m0, m1
 120
 121     movq             m4, %5
 122     movq             m6, %6
 123     movq             m5, %7
 124     movq             m3, %8
 125
 126     punpcklwd        m4, m6
 127     punpcklwd        m5, m3
 128     punpckhdq        m6, m4, m5
 129     punpckldq        m4, m5
 130
 131     punpckhqdq       m1, m0, m4
 132     punpcklqdq       m0, m4
 133     punpckhqdq       m3, m2, m6
 134     punpcklqdq       m2, m6
 135
 136 %endmacro
 137
 138 ; in: 4 rows of 8 words in m0..m3
 139 ; out: 8 rows of 4 words in %1..%8
 140 %macro TRANSPOSE8x4W_STORE 9
 141     TRANSPOSE4x4W     0, 1, 2, 3, 4
 142
 143     pxor             m5, m5; zeros reg
 144     CLIPW            m0, m5, %9
 145     CLIPW            m1, m5, %9
 146     CLIPW            m2, m5, %9
 147     CLIPW            m3, m5, %9
 148
 149     movq             %1, m0
 150     movhps           %2, m0
 151     movq             %3, m1
 152     movhps           %4, m1
 153     movq             %5, m2
 154     movhps           %6, m2
 155     movq             %7, m3
 156     movhps           %8, m3
 157 %endmacro
 158
 159 ; in: 8 rows of 8 bytes in %1..%8
 160 ; out: 8 rows of 8 words in m0..m7
 161 %macro TRANSPOSE8x8B_LOAD 8
 162     movq             m7, %1
 163     movq             m2, %2
 164     movq             m1, %3
 165     movq             m3, %4
 166
 167     punpcklbw        m7, m2
 168     punpcklbw        m1, m3
 169     punpcklwd        m3, m7, m1
 170     punpckhwd        m7, m1
 171
 172     movq             m4, %5
 173     movq             m6, %6
 174     movq             m5, %7
 175     movq            m15, %8
 176
 177     punpcklbw        m4, m6
 178     punpcklbw        m5, m15
 179     punpcklwd        m9, m4, m5
 180     punpckhwd        m4, m5
 181
 182     punpckldq        m1, m3, m9;  0, 1
 183     punpckhdq        m3, m9;  2, 3
 184
 185     punpckldq        m5, m7, m4;  4, 5
 186     punpckhdq        m7, m4;  6, 7
 187
 188     pxor            m13, m13
 189
 190     punpcklbw        m0, m1, m13; 0 in 16 bit
 191     punpckhbw        m1, m13; 1 in 16 bit
 192
 193     punpcklbw        m2, m3, m13; 2
 194     punpckhbw        m3, m13; 3
 195
 196     punpcklbw        m4, m5, m13; 4
 197     punpckhbw        m5, m13; 5
 198
 199     punpcklbw        m6, m7, m13; 6
 200     punpckhbw        m7, m13; 7
 201 %endmacro
 202
 203
 204 ; in: 8 rows of 8 words in m0..m8
 205 ; out: 8 rows of 8 bytes in %1..%8
 206 %macro TRANSPOSE8x8B_STORE 8
 207     packuswb         m0, m0
 208     packuswb         m1, m1
 209     packuswb         m2, m2
 210     packuswb         m3, m3
 211     packuswb         m4, m4
 212     packuswb         m5, m5
 213     packuswb         m6, m6
 214     packuswb         m7, m7
 215
 216     punpcklbw        m0, m1
 217     punpcklbw        m2, m3
 218
 219     punpckhwd        m8, m0, m2
 220     punpcklwd        m0, m2
 221
 222     punpcklbw        m4, m5
 223     punpcklbw        m6, m7
 224
 225     punpckhwd        m9, m4, m6
 226     punpcklwd        m4, m6
 227
 228     punpckhdq       m10, m0, m4; 2, 3
 229     punpckldq        m0, m4;   0, 1
 230
 231     punpckldq       m11, m8, m9;  4, 5
 232     punpckhdq        m8, m9;   6, 7
 233     movq             %1, m0
 234     movhps           %2, m0
 235     movq             %3, m10
 236     movhps           %4, m10
 237     movq             %5, m11
 238     movhps           %6, m11
 239     movq             %7, m8
 240     movhps           %8, m8
 241 %endmacro
 242
 243 ; in: 8 rows of 8 words in %1..%8
 244 ; out: 8 rows of 8 words in m0..m7
 245 %macro TRANSPOSE8x8W_LOAD 8
 246     movdqu           m0, %1
 247     movdqu           m1, %2
 248     movdqu           m2, %3
 249     movdqu           m3, %4
 250     movdqu           m4, %5
 251     movdqu           m5, %6
 252     movdqu           m6, %7
 253     movdqu           m7, %8
 254     TRANSPOSE8x8W     0, 1, 2, 3, 4, 5, 6, 7, 8
 255 %endmacro
 256
 257 ; in: 8 rows of 8 words in m0..m8
 258 ; out: 8 rows of 8 words in %1..%8
 259 %macro TRANSPOSE8x8W_STORE 9
 260     TRANSPOSE8x8W     0, 1, 2, 3, 4, 5, 6, 7, 8
 261
 262     pxor             m8, m8
 263     CLIPW            m0, m8, %9
 264     CLIPW            m1, m8, %9
 265     CLIPW            m2, m8, %9
 266     CLIPW            m3, m8, %9
 267     CLIPW            m4, m8, %9
 268     CLIPW            m5, m8, %9
 269     CLIPW            m6, m8, %9
 270     CLIPW            m7, m8, %9
 271
 272     movdqu           %1, m0
 273     movdqu           %2, m1
 274     movdqu           %3, m2
 275     movdqu           %4, m3
 276     movdqu           %5, m4
 277     movdqu           %6, m5
 278     movdqu           %7, m6
 279     movdqu           %8, m7
 280 %endmacro
 281
 282
 283 ; in: %2 clobbered
 284 ; out: %1
 285 ; mask in m11
 286 ; clobbers m10
 287 %macro MASKED_COPY 2
 288     pand             %2, m11 ; and mask
 289     pandn           m10, m11, %1; and -mask
 290     por              %2, m10
 291     mova             %1, %2
 292 %endmacro
 293
 294 ; in: %2 clobbered
 295 ; out: %1
 296 ; mask in %3, will be clobbered
 297 %macro MASKED_COPY2 3
 298     pand             %2, %3 ; and mask
 299     pandn            %3, %1; and -mask
 300     por              %2, %3
 301     mova             %1, %2
 302 %endmacro
 303
 304 ALIGN 16
 305 ; input in m0 ... m3 and tcs in r2. Output in m1 and m2
 306 %macro CHROMA_DEBLOCK_BODY 1
 307     psubw            m4, m2, m1; q0 - p0
 308     psubw            m5, m0, m3; p1 - q1
 309     psllw            m4, 2; << 2
 310     paddw            m5, m4;
 311
 312     ;tc calculations
 313     movq             m6, [tcq]; tc0
 314     punpcklwd        m6, m6
 315     pshufd           m6, m6, 0xA0; tc0, tc1
 316 %if cpuflag(ssse3)
 317     psignw           m4, m6, [pw_m1]; -tc0, -tc1
 318 %else
 319     pmullw           m4, m6, [pw_m1]; -tc0, -tc1
 320 %endif
 321     ;end tc calculations
 322
 323     paddw            m5, [pw_4]; +4
 324     psraw            m5, 3; >> 3
 325
 326 %if %1 > 8
 327     psllw            m4, %1-8; << (BIT_DEPTH - 8)
 328     psllw            m6, %1-8; << (BIT_DEPTH - 8)
 329 %endif
 330     pmaxsw           m5, m4
 331     pminsw           m5, m6
 332     paddw            m1, m5; p0 + delta0
 333     psubw            m2, m5; q0 - delta0
 334 %endmacro
 335
 336 ; input in m0 ... m7, beta in r2 tcs in r3. Output in m1...m6
 337 %macro LUMA_DEBLOCK_BODY 2
 338     psllw            m9, m2, 1; *2
 339     psubw           m10, m1, m9
 340     paddw           m10, m3
 341     ABS1            m10, m11 ; 0dp0, 0dp3 , 1dp0, 1dp3
 342
 343     psllw            m9, m5, 1; *2
 344     psubw           m11, m6, m9
 345     paddw           m11, m4
 346     ABS1            m11, m13 ; 0dq0, 0dq3 , 1dq0, 1dq3
 347
 348     ;beta calculations
 349 %if %1 > 8
 350     shl             betaq, %1 - 8
 351 %endif
 352     movd            m13, betad
 353     SPLATW          m13, m13, 0
 354     ;end beta calculations
 355
 356     paddw            m9, m10, m11;   0d0, 0d3  ,  1d0, 1d3
 357
 358     pshufhw         m14, m9, 0x0f ;0b00001111;  0d3 0d3 0d0 0d0 in high
 359     pshuflw         m14, m14, 0x0f ;0b00001111;  1d3 1d3 1d0 1d0 in low
 360
 361     pshufhw          m9, m9, 0xf0 ;0b11110000; 0d0 0d0 0d3 0d3
 362     pshuflw          m9, m9, 0xf0 ;0b11110000; 1d0 1d0 1d3 1d3
 363
 364     paddw           m14, m9; 0d0+0d3, 1d0+1d3
 365
 366     ;compare
 367     pcmpgtw         m15, m13, m14
 368     movmskps        r13, m15 ;filtering mask 0d0 + 0d3 < beta0 (bit 2 or 3) , 1d0 + 1d3 < beta1 (bit 0 or 1)
 369     test            r13, r13
 370     je              .bypassluma
 371
 372     ;weak / strong decision compare to beta_2
 373     psraw           m15, m13, 2;   beta >> 2
 374     psllw            m8, m9, 1;
 375     pcmpgtw         m15, m8; (d0 << 1) < beta_2, (d3 << 1) < beta_2
 376     movmskps        r6, m15;
 377     ;end weak / strong decision
 378
 379     ; weak filter nd_p/q calculation
 380     pshufd           m8, m10, 0x31
 381     psrld            m8, 16
 382     paddw            m8, m10
 383     movd            r7d, m8
 384     and              r7, 0xffff; 1dp0 + 1dp3
 385     pshufd           m8, m8, 0x4E
 386     movd            r8d, m8
 387     and              r8, 0xffff; 0dp0 + 0dp3
 388
 389     pshufd           m8, m11, 0x31
 390     psrld            m8, 16
 391     paddw            m8, m11
 392     movd            r9d, m8
 393     and              r9, 0xffff; 1dq0 + 1dq3
 394     pshufd           m8, m8, 0x4E
 395     movd           r10d, m8
 396     and             r10, 0xffff; 0dq0 + 0dq3
 397     ; end calc for weak filter
 398
 399     ; filtering mask
 400     mov             r11, r13
 401     shr             r11, 3
 402     movd            m15, r11d
 403     and             r13, 1
 404     movd            m11, r13d
 405     shufps          m11, m15, 0
 406     shl             r11, 1
 407     or              r13, r11
 408
 409     pcmpeqd         m11, [pd_1]; filtering mask
 410
 411     ;decide between strong and weak filtering
 412     ;tc25 calculations
 413     mov            r11d, [tcq];
 414 %if %1 > 8
 415     shl             r11, %1 - 8
 416 %endif
 417     movd             m8, r11d; tc0
 418     mov             r3d, [tcq+4];
 419 %if %1 > 8
 420     shl              r3, %1 - 8
 421 %endif
 422     add            r11d, r3d; tc0 + tc1
 423     jz             .bypassluma
 424     movd             m9, r3d; tc1
 425     punpcklwd        m8, m8
 426     punpcklwd        m9, m9
 427     shufps           m8, m9, 0; tc0, tc1
 428     mova             m9, m8
 429     psllw            m8, 2; tc << 2
 430     pavgw            m8, m9; tc25 = ((tc * 5 + 1) >> 1)
 431     ;end tc25 calculations
 432
 433     ;----beta_3 comparison-----
 434     psubw           m12, m0, m3;      p3 - p0
 435     ABS1            m12, m14; abs(p3 - p0)
 436
 437     psubw           m15, m7, m4;      q3 - q0
 438     ABS1            m15, m14; abs(q3 - q0)
 439
 440     paddw           m12, m15; abs(p3 - p0) + abs(q3 - q0)
 441
 442     pshufhw         m12, m12, 0xf0 ;0b11110000;
 443     pshuflw         m12, m12, 0xf0 ;0b11110000;
 444
 445     psraw           m13, 3; beta >> 3
 446     pcmpgtw         m13, m12;
 447     movmskps        r11, m13;
 448     and             r6, r11; strong mask , beta_2 and beta_3 comparisons
 449     ;----beta_3 comparison end-----
 450     ;----tc25 comparison---
 451     psubw           m12, m3, m4;      p0 - q0
 452     ABS1            m12, m14; abs(p0 - q0)
 453
 454     pshufhw         m12, m12, 0xf0 ;0b11110000;
 455     pshuflw         m12, m12, 0xf0 ;0b11110000;
 456
 457     pcmpgtw          m8, m12; tc25 comparisons
 458     movmskps        r11, m8;
 459     and             r6, r11; strong mask, beta_2, beta_3 and tc25 comparisons
 460     ;----tc25 comparison end---
 461     mov             r11, r6;
 462     shr             r11, 1;
 463     and             r6, r11; strong mask, bits 2 and 0
 464
 465     pmullw          m14, m9, [pw_m2]; -tc * 2
 466     paddw            m9, m9
 467
 468     and             r6, 5; 0b101
 469     mov             r11, r6; strong mask
 470     shr             r6, 2;
 471     movd            m12, r6d; store to xmm for mask generation
 472     shl             r6, 1
 473     and             r11, 1
 474     movd            m10, r11d; store to xmm for mask generation
 475     or              r6, r11; final strong mask, bits 1 and 0
 476     jz      .weakfilter
 477
 478     shufps          m10, m12, 0
 479     pcmpeqd         m10, [pd_1]; strong mask
 480
 481     mova            m13, [pw_4]; 4 in every cell
 482     pand            m11, m10; combine filtering mask and strong mask
 483     paddw           m12, m2, m3;          p1 +   p0
 484     paddw           m12, m4;          p1 +   p0 +   q0
 485     mova            m10, m12; copy
 486     paddw           m12, m12;       2*p1 + 2*p0 + 2*q0
 487     paddw           m12, m1;   p2 + 2*p1 + 2*p0 + 2*q0
 488     paddw           m12, m5;   p2 + 2*p1 + 2*p0 + 2*q0 + q1
 489     paddw           m12, m13;  p2 + 2*p1 + 2*p0 + 2*q0 + q1 + 4
 490     psraw           m12, 3;  ((p2 + 2*p1 + 2*p0 + 2*q0 + q1 + 4) >> 3)
 491     psubw           m12, m3; ((p2 + 2*p1 + 2*p0 + 2*q0 + q1 + 4) >> 3) - p0
 492     pmaxsw          m12, m14
 493     pminsw          m12, m9; av_clip( , -2 * tc, 2 * tc)
 494     paddw           m12, m3; p0'
 495
 496     paddw           m15, m1, m10; p2 + p1 + p0 + q0
 497     psrlw           m13, 1; 2 in every cell
 498     paddw           m15, m13; p2 + p1 + p0 + q0 + 2
 499     psraw           m15, 2;  (p2 + p1 + p0 + q0 + 2) >> 2
 500     psubw           m15, m2;((p2 + p1 + p0 + q0 + 2) >> 2) - p1
 501     pmaxsw          m15, m14
 502     pminsw          m15, m9; av_clip( , -2 * tc, 2 * tc)
 503     paddw           m15, m2; p1'
 504
 505     paddw            m8, m1, m0;     p3 +   p2
 506     paddw            m8, m8;   2*p3 + 2*p2
 507     paddw            m8, m1;   2*p3 + 3*p2
 508     paddw            m8, m10;  2*p3 + 3*p2 + p1 + p0 + q0
 509     paddw           m13, m13
 510     paddw            m8, m13;  2*p3 + 3*p2 + p1 + p0 + q0 + 4
 511     psraw            m8, 3;   (2*p3 + 3*p2 + p1 + p0 + q0 + 4) >> 3
 512     psubw            m8, m1; ((2*p3 + 3*p2 + p1 + p0 + q0 + 4) >> 3) - p2
 513     pmaxsw           m8, m14
 514     pminsw           m8, m9; av_clip( , -2 * tc, 2 * tc)
 515     paddw            m8, m1; p2'
 516     MASKED_COPY      m1, m8
 517
 518     paddw            m8, m3, m4;         p0 +   q0
 519     paddw            m8, m5;         p0 +   q0 +   q1
 520     paddw            m8, m8;       2*p0 + 2*q0 + 2*q1
 521     paddw            m8, m2;  p1 + 2*p0 + 2*q0 + 2*q1
 522     paddw            m8, m6;  p1 + 2*p0 + 2*q0 + 2*q1 + q2
 523     paddw            m8, m13; p1 + 2*p0 + 2*q0 + 2*q1 + q2 + 4
 524     psraw            m8, 3;  (p1 + 2*p0 + 2*q0 + 2*q1 + q2 + 4) >>3
 525     psubw            m8, m4;
 526     pmaxsw           m8, m14
 527     pminsw           m8, m9; av_clip( , -2 * tc, 2 * tc)
 528     paddw            m8, m4; q0'
 529     MASKED_COPY      m2, m15
 530
 531     paddw           m15, m3, m4;   p0 + q0
 532     paddw           m15, m5;   p0 + q0 + q1
 533     mova            m10, m15;
 534     paddw           m15, m6;   p0 + q0 + q1 + q2
 535     psrlw           m13, 1; 2 in every cell
 536     paddw           m15, m13;  p0 + q0 + q1 + q2 + 2
 537     psraw           m15, 2;   (p0 + q0 + q1 + q2 + 2) >> 2
 538     psubw           m15, m5; ((p0 + q0 + q1 + q2 + 2) >> 2) - q1
 539     pmaxsw          m15, m14
 540     pminsw          m15, m9; av_clip( , -2 * tc, 2 * tc)
 541     paddw           m15, m5; q1'
 542
 543     paddw           m13, m7;      q3 + 2
 544     paddw           m13, m6;      q3 +  q2 + 2
 545     paddw           m13, m13;   2*q3 + 2*q2 + 4
 546     paddw           m13, m6;    2*q3 + 3*q2 + 4
 547     paddw           m13, m10;   2*q3 + 3*q2 + q1 + q0 + p0 + 4
 548     psraw           m13, 3;    (2*q3 + 3*q2 + q1 + q0 + p0 + 4) >> 3
 549     psubw           m13, m6;  ((2*q3 + 3*q2 + q1 + q0 + p0 + 4) >> 3) - q2
 550     pmaxsw          m13, m14
 551     pminsw          m13, m9; av_clip( , -2 * tc, 2 * tc)
 552     paddw           m13, m6; q2'
 553
 554     MASKED_COPY      m6, m13
 555     MASKED_COPY      m5, m15
 556     MASKED_COPY      m4, m8
 557     MASKED_COPY      m3, m12
 558
 559 .weakfilter:
 560     not             r6; strong mask -> weak mask
 561     and             r6, r13; final weak filtering mask, bits 0 and 1
 562     jz             .store
 563
 564     ; weak filtering mask
 565     mov             r11, r6
 566     shr             r11, 1
 567     movd            m12, r11d
 568     and             r6, 1
 569     movd            m11, r6d
 570     shufps          m11, m12, 0
 571     pcmpeqd         m11, [pd_1]; filtering mask
 572
 573     mov             r13, betaq
 574     shr             r13, 1;
 575     add             betaq, r13
 576     shr             betaq, 3; ((beta + (beta >> 1)) >> 3))
 577
 578     mova            m13, [pw_8]
 579     psubw           m12, m4, m3 ; q0 - p0
 580     psllw           m10, m12, 3; 8 * (q0 - p0)
 581     paddw           m12, m10 ; 9 * (q0 - p0)
 582
 583     psubw           m10, m5, m2 ; q1 - p1
 584     psllw            m8, m10, 1; 2 * ( q1 - p1 )
 585     paddw           m10, m8; 3 * ( q1 - p1 )
 586     psubw           m12, m10; 9 * (q0 - p0) - 3 * ( q1 - p1 )
 587     paddw           m12, m13; + 8
 588     psraw           m12, 4; >> 4 , delta0
 589     PABSW           m13, m12; abs(delta0)
 590
 591
 592     psllw           m10, m9, 2; 8 * tc
 593     paddw           m10, m9; 10 * tc
 594     pcmpgtw         m10, m13
 595     pand            m11, m10
 596
 597     psraw            m9, 1;   tc * 2 -> tc
 598     psraw           m14, 1; -tc * 2 -> -tc
 599
 600     pmaxsw          m12, m14
 601     pminsw          m12, m9;  av_clip(delta0, -tc, tc)
 602
 603     psraw            m9, 1;   tc -> tc / 2
 604 %if cpuflag(ssse3)
 605     psignw          m14, m9, [pw_m1]; -tc / 2
 606 %else
 607     pmullw          m14, m9, [pw_m1]; -tc / 2
 608 %endif
 609
 610     pavgw           m15, m1, m3;   (p2 + p0 + 1) >> 1
 611     psubw           m15, m2;  ((p2 + p0 + 1) >> 1) - p1
 612     paddw           m15, m12; ((p2 + p0 + 1) >> 1) - p1 + delta0
 613     psraw           m15, 1;   (((p2 + p0 + 1) >> 1) - p1 + delta0) >> 1
 614     pmaxsw          m15, m14
 615     pminsw          m15, m9; av_clip(deltap1, -tc/2, tc/2)
 616     paddw           m15, m2; p1'
 617
 618     ;beta calculations
 619     movd            m10, betad
 620     SPLATW          m10, m10, 0
 621
 622     movd            m13, r7d; 1dp0 + 1dp3
 623     movd             m8, r8d; 0dp0 + 0dp3
 624     punpcklwd        m8, m8
 625     punpcklwd       m13, m13
 626     shufps          m13, m8, 0;
 627     pcmpgtw          m8, m10, m13
 628     pand             m8, m11
 629     ;end beta calculations
 630     MASKED_COPY2     m2, m15, m8; write p1'
 631
 632     pavgw            m8, m6, m4;   (q2 + q0 + 1) >> 1
 633     psubw            m8, m5;  ((q2 + q0 + 1) >> 1) - q1
 634     psubw            m8, m12; ((q2 + q0 + 1) >> 1) - q1 - delta0)
 635     psraw            m8, 1;   ((q2 + q0 + 1) >> 1) - q1 - delta0) >> 1
 636     pmaxsw           m8, m14
 637     pminsw           m8, m9; av_clip(deltaq1, -tc/2, tc/2)
 638     paddw            m8, m5; q1'
 639
 640     movd            m13, r9d;
 641     movd            m15, r10d;
 642     punpcklwd       m15, m15
 643     punpcklwd       m13, m13
 644     shufps          m13, m15, 0; dq0 + dq3
 645
 646     pcmpgtw         m10, m13; compare to ((beta+(beta>>1))>>3)
 647     pand            m10, m11
 648     MASKED_COPY2     m5, m8, m10; write q1'
 649
 650     paddw           m15, m3, m12 ; p0 + delta0
 651     MASKED_COPY      m3, m15
 652
 653     psubw            m8, m4, m12 ; q0 - delta0
 654     MASKED_COPY      m4, m8
 655 %endmacro
 656
 657 ;-----------------------------------------------------------------------------
 658 ; void ff_hevc_v_loop_filter_chroma(uint8_t *_pix, ptrdiff_t _stride, int *_tc,
 659 ;                                   uint8_t *_no_p, uint8_t *_no_q);
 660 ;-----------------------------------------------------------------------------
 661 %macro LOOP_FILTER_CHROMA 0
 662 cglobal hevc_v_loop_filter_chroma_8, 3, 5, 7, pix, stride, tc, pix0, r3stride
 663     sub            pixq, 2
 664     lea       r3strideq, [3*strideq]
 665     mov           pix0q, pixq
 666     add            pixq, r3strideq
 667     TRANSPOSE4x8B_LOAD  PASS8ROWS(pix0q, pixq, strideq, r3strideq)
 668     CHROMA_DEBLOCK_BODY 8
 669     TRANSPOSE8x4B_STORE PASS8ROWS(pix0q, pixq, strideq, r3strideq)
 670     RET
 671
 672 cglobal hevc_v_loop_filter_chroma_10, 3, 5, 7, pix, stride, tc, pix0, r3stride
 673     sub            pixq, 4
 674     lea       r3strideq, [3*strideq]
 675     mov           pix0q, pixq
 676     add            pixq, r3strideq
 677     TRANSPOSE4x8W_LOAD  PASS8ROWS(pix0q, pixq, strideq, r3strideq)
 678     CHROMA_DEBLOCK_BODY 10
 679     TRANSPOSE8x4W_STORE PASS8ROWS(pix0q, pixq, strideq, r3strideq), [pw_pixel_max_10]
 680     RET
 681
 682 cglobal hevc_v_loop_filter_chroma_12, 3, 5, 7, pix, stride, tc, pix0, r3stride
 683     sub            pixq, 4
 684     lea       r3strideq, [3*strideq]
 685     mov           pix0q, pixq
 686     add            pixq, r3strideq
 687     TRANSPOSE4x8W_LOAD  PASS8ROWS(pix0q, pixq, strideq, r3strideq)
 688     CHROMA_DEBLOCK_BODY 12
 689     TRANSPOSE8x4W_STORE PASS8ROWS(pix0q, pixq, strideq, r3strideq), [pw_pixel_max_12]
 690     RET
 691
 692 ;-----------------------------------------------------------------------------
 693 ; void ff_hevc_h_loop_filter_chroma(uint8_t *_pix, ptrdiff_t _stride, int *_tc,
 694 ;                                   uint8_t *_no_p, uint8_t *_no_q);
 695 ;-----------------------------------------------------------------------------
 696 cglobal hevc_h_loop_filter_chroma_8, 3, 4, 7, pix, stride, tc, pix0
 697     mov           pix0q, pixq
 698     sub           pix0q, strideq
 699     sub           pix0q, strideq
 700     movq             m0, [pix0q];    p1
 701     movq             m1, [pix0q+strideq]; p0
 702     movq             m2, [pixq];    q0
 703     movq             m3, [pixq+strideq]; q1
 704     pxor             m5, m5; zeros reg
 705     punpcklbw        m0, m5
 706     punpcklbw        m1, m5
 707     punpcklbw        m2, m5
 708     punpcklbw        m3, m5
 709     CHROMA_DEBLOCK_BODY  8
 710     packuswb         m1, m2
 711     movh[pix0q+strideq], m1
 712     movhps       [pixq], m1
 713     RET
 714
 715 cglobal hevc_h_loop_filter_chroma_10, 3, 4, 7, pix, stride, tc, pix0
 716     mov          pix0q, pixq
 717     sub          pix0q, strideq
 718     sub          pix0q, strideq
 719     movu            m0, [pix0q];    p1
 720     movu            m1, [pix0q+strideq]; p0
 721     movu            m2, [pixq];    q0
 722     movu            m3, [pixq+strideq]; q1
 723     CHROMA_DEBLOCK_BODY 10
 724     pxor            m5, m5; zeros reg
 725     CLIPW           m1, m5, [pw_pixel_max_10]
 726     CLIPW           m2, m5, [pw_pixel_max_10]
 727     movu [pix0q+strideq], m1
 728     movu        [pixq], m2
 729     RET
 730
 731 cglobal hevc_h_loop_filter_chroma_12, 3, 4, 7, pix, stride, tc, pix0
 732     mov          pix0q, pixq
 733     sub          pix0q, strideq
 734     sub          pix0q, strideq
 735     movu            m0, [pix0q];    p1
 736     movu            m1, [pix0q+strideq]; p0
 737     movu            m2, [pixq];    q0
 738     movu            m3, [pixq+strideq]; q1
 739     CHROMA_DEBLOCK_BODY 12
 740     pxor            m5, m5; zeros reg
 741     CLIPW           m1, m5, [pw_pixel_max_12]
 742     CLIPW           m2, m5, [pw_pixel_max_12]
 743     movu [pix0q+strideq], m1
 744     movu        [pixq], m2
 745     RET
 746 %endmacro
 747
 748 INIT_XMM sse2
 749 LOOP_FILTER_CHROMA
 750 INIT_XMM avx
 751 LOOP_FILTER_CHROMA
 752
 753 %if ARCH_X86_64
 754 %macro LOOP_FILTER_LUMA 0
 755 ;-----------------------------------------------------------------------------
 756 ; void ff_hevc_v_loop_filter_luma(uint8_t *_pix, ptrdiff_t _stride, int beta,
 757 ;                                 int *_tc, uint8_t *_no_p, uint8_t *_no_q);
 758 ;-----------------------------------------------------------------------------
 759 cglobal hevc_v_loop_filter_luma_8, 4, 14, 16, pix, stride, beta, tc, pix0, src3stride
 760     sub            pixq, 4
 761     lea           pix0q, [3 * r1]
 762     mov     src3strideq, pixq
 763     add            pixq, pix0q
 764     TRANSPOSE8x8B_LOAD  PASS8ROWS(src3strideq, pixq, r1, pix0q)
 765     LUMA_DEBLOCK_BODY 8, v
 766 .store:
 767     TRANSPOSE8x8B_STORE PASS8ROWS(src3strideq, pixq, r1, pix0q)
 768 .bypassluma:
 769     RET
 770
 771 cglobal hevc_v_loop_filter_luma_10, 4, 14, 16, pix, stride, beta, tc, pix0, src3stride
 772     sub            pixq, 8
 773     lea           pix0q, [3 * strideq]
 774     mov     src3strideq, pixq
 775     add            pixq, pix0q
 776     TRANSPOSE8x8W_LOAD  PASS8ROWS(src3strideq, pixq, strideq, pix0q)
 777     LUMA_DEBLOCK_BODY 10, v
 778 .store:
 779     TRANSPOSE8x8W_STORE PASS8ROWS(src3strideq, pixq, r1, pix0q), [pw_pixel_max_10]
 780 .bypassluma:
 781     RET
 782
 783 cglobal hevc_v_loop_filter_luma_12, 4, 14, 16, pix, stride, beta, tc, pix0, src3stride
 784     sub            pixq, 8
 785     lea           pix0q, [3 * strideq]
 786     mov     src3strideq, pixq
 787     add            pixq, pix0q
 788     TRANSPOSE8x8W_LOAD  PASS8ROWS(src3strideq, pixq, strideq, pix0q)
 789     LUMA_DEBLOCK_BODY 12, v
 790 .store:
 791     TRANSPOSE8x8W_STORE PASS8ROWS(src3strideq, pixq, r1, pix0q), [pw_pixel_max_12]
 792 .bypassluma:
 793     RET
 794
 795 ;-----------------------------------------------------------------------------
 796 ; void ff_hevc_h_loop_filter_luma(uint8_t *_pix, ptrdiff_t _stride, int beta,
 797 ;                                 int *_tc, uint8_t *_no_p, uint8_t *_no_q);
 798 ;-----------------------------------------------------------------------------
 799 cglobal hevc_h_loop_filter_luma_8, 4, 14, 16, pix, stride, beta, tc, pix0, src3stride
 800     lea     src3strideq, [3 * strideq]
 801     mov           pix0q, pixq
 802     sub           pix0q, src3strideq
 803     sub           pix0q, strideq
 804     movq             m0, [pix0q];               p3
 805     movq             m1, [pix0q +     strideq]; p2
 806     movq             m2, [pix0q + 2 * strideq]; p1
 807     movq             m3, [pix0q + src3strideq]; p0
 808     movq             m4, [pixq];                q0
 809     movq             m5, [pixq +     strideq];  q1
 810     movq             m6, [pixq + 2 * strideq];  q2
 811     movq             m7, [pixq + src3strideq];  q3
 812     pxor             m8, m8
 813     punpcklbw        m0, m8
 814     punpcklbw        m1, m8
 815     punpcklbw        m2, m8
 816     punpcklbw        m3, m8
 817     punpcklbw        m4, m8
 818     punpcklbw        m5, m8
 819     punpcklbw        m6, m8
 820     punpcklbw        m7, m8
 821     LUMA_DEBLOCK_BODY 8, h
 822 .store:
 823     packuswb          m1, m2
 824     packuswb          m3, m4
 825     packuswb          m5, m6
 826     movh   [pix0q +     strideq], m1
 827     movhps [pix0q + 2 * strideq], m1
 828     movh   [pix0q + src3strideq], m3
 829     movhps [pixq               ], m3
 830     movh   [pixq  +     strideq], m5
 831     movhps [pixq  + 2 * strideq], m5
 832 .bypassluma:
 833     RET
 834
 835 cglobal hevc_h_loop_filter_luma_10, 4, 14, 16, pix, stride, beta, tc, pix0, src3stride
 836     lea                  src3strideq, [3 * strideq]
 837     mov                        pix0q, pixq
 838     sub                        pix0q, src3strideq
 839     sub                        pix0q, strideq
 840     movdqu                        m0, [pix0q];               p3
 841     movdqu                        m1, [pix0q +     strideq]; p2
 842     movdqu                        m2, [pix0q + 2 * strideq]; p1
 843     movdqu                        m3, [pix0q + src3strideq]; p0
 844     movdqu                        m4, [pixq];                q0
 845     movdqu                        m5, [pixq  +     strideq]; q1
 846     movdqu                        m6, [pixq  + 2 * strideq]; q2
 847     movdqu                        m7, [pixq  + src3strideq]; q3
 848     LUMA_DEBLOCK_BODY             10, h
 849 .store:
 850     pxor                          m8, m8; zeros reg
 851     CLIPW                         m1, m8, [pw_pixel_max_10]
 852     CLIPW                         m2, m8, [pw_pixel_max_10]
 853     CLIPW                         m3, m8, [pw_pixel_max_10]
 854     CLIPW                         m4, m8, [pw_pixel_max_10]
 855     CLIPW                         m5, m8, [pw_pixel_max_10]
 856     CLIPW                         m6, m8, [pw_pixel_max_10]
 857     movdqu     [pix0q +     strideq], m1;  p2
 858     movdqu     [pix0q + 2 * strideq], m2;  p1
 859     movdqu     [pix0q + src3strideq], m3;  p0
 860     movdqu     [pixq               ], m4;  q0
 861     movdqu     [pixq  +     strideq], m5;  q1
 862     movdqu     [pixq  + 2 * strideq], m6;  q2
 863 .bypassluma:
 864     RET
 865
 866 cglobal hevc_h_loop_filter_luma_12, 4, 14, 16, pix, stride, beta, tc, pix0, src3stride
 867     lea                  src3strideq, [3 * strideq]
 868     mov                        pix0q, pixq
 869     sub                        pix0q, src3strideq
 870     sub                        pix0q, strideq
 871     movdqu                        m0, [pix0q];               p3
 872     movdqu                        m1, [pix0q +     strideq]; p2
 873     movdqu                        m2, [pix0q + 2 * strideq]; p1
 874     movdqu                        m3, [pix0q + src3strideq]; p0
 875     movdqu                        m4, [pixq];                q0
 876     movdqu                        m5, [pixq  +     strideq]; q1
 877     movdqu                        m6, [pixq  + 2 * strideq]; q2
 878     movdqu                        m7, [pixq  + src3strideq]; q3
 879     LUMA_DEBLOCK_BODY             12, h
 880 .store:
 881     pxor                          m8, m8; zeros reg
 882     CLIPW                         m1, m8, [pw_pixel_max_12]
 883     CLIPW                         m2, m8, [pw_pixel_max_12]
 884     CLIPW                         m3, m8, [pw_pixel_max_12]
 885     CLIPW                         m4, m8, [pw_pixel_max_12]
 886     CLIPW                         m5, m8, [pw_pixel_max_12]
 887     CLIPW                         m6, m8, [pw_pixel_max_12]
 888     movdqu     [pix0q +     strideq], m1;  p2
 889     movdqu     [pix0q + 2 * strideq], m2;  p1
 890     movdqu     [pix0q + src3strideq], m3;  p0
 891     movdqu     [pixq               ], m4;  q0
 892     movdqu     [pixq  +     strideq], m5;  q1
 893     movdqu     [pixq  + 2 * strideq], m6;  q2
 894 .bypassluma:
 895     RET
 896
 897 %endmacro
 898
 899 INIT_XMM sse2
 900 LOOP_FILTER_LUMA
 901 INIT_XMM ssse3
 902 LOOP_FILTER_LUMA
 903 INIT_XMM avx
 904 LOOP_FILTER_LUMA
 905 %endif