Upstream version 9.38.198.0
[platform/framework/web/crosswalk.git] / src / third_party / ffmpeg / libavcodec / x86 / vp8dsp_loopfilter.asm
1 ;******************************************************************************
2 ;* VP8 MMXEXT optimizations
3 ;* Copyright (c) 2010 Ronald S. Bultje <rsbultje@gmail.com>
4 ;* Copyright (c) 2010 Fiona Glaser <fiona@x264.com>
5 ;*
6 ;* This file is part of FFmpeg.
7 ;*
8 ;* FFmpeg is free software; you can redistribute it and/or
9 ;* modify it under the terms of the GNU Lesser General Public
10 ;* License as published by the Free Software Foundation; either
11 ;* version 2.1 of the License, or (at your option) any later version.
12 ;*
13 ;* FFmpeg is distributed in the hope that it will be useful,
14 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
15 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
16 ;* Lesser General Public License for more details.
17 ;*
18 ;* You should have received a copy of the GNU Lesser General Public
19 ;* License along with FFmpeg; if not, write to the Free Software
20 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
21 ;******************************************************************************
22
23 %include "libavutil/x86/x86util.asm"
24
25 SECTION_RODATA
26
27 pw_27:    times 8 dw 27
28 pw_63:    times 8 dw 63
29
30 pb_4:     times 16 db 4
31 pb_F8:    times 16 db 0xF8
32 pb_FE:    times 16 db 0xFE
33 pb_27_63: times 8 db 27, 63
34 pb_18_63: times 8 db 18, 63
35 pb_9_63:  times 8 db  9, 63
36
37 cextern pb_1
38 cextern pb_3
39 cextern pw_9
40 cextern pw_18
41 cextern pb_80
42
43 SECTION .text
44
45 ;-----------------------------------------------------------------------------
46 ; void ff_vp8_h/v_loop_filter_simple_<opt>(uint8_t *dst, int stride, int flim);
47 ;-----------------------------------------------------------------------------
48
49 ; macro called with 7 mm register indexes as argument, and 4 regular registers
50 ;
51 ; first 4 mm registers will carry the transposed pixel data
52 ; the other three are scratchspace (one would be sufficient, but this allows
53 ; for more spreading/pipelining and thus faster execution on OOE CPUs)
54 ;
55 ; first two regular registers are buf+4*stride and buf+5*stride
56 ; third is -stride, fourth is +stride
57 %macro READ_8x4_INTERLEAVED 11
58     ; interleave 8 (A-H) rows of 4 pixels each
59     movd          m%1, [%8+%10*4]   ; A0-3
60     movd          m%5, [%9+%10*4]   ; B0-3
61     movd          m%2, [%8+%10*2]   ; C0-3
62     movd          m%6, [%8+%10]     ; D0-3
63     movd          m%3, [%8]         ; E0-3
64     movd          m%7, [%9]         ; F0-3
65     movd          m%4, [%9+%11]     ; G0-3
66     punpcklbw     m%1, m%5          ; A/B interleaved
67     movd          m%5, [%9+%11*2]   ; H0-3
68     punpcklbw     m%2, m%6          ; C/D interleaved
69     punpcklbw     m%3, m%7          ; E/F interleaved
70     punpcklbw     m%4, m%5          ; G/H interleaved
71 %endmacro
72
73 ; macro called with 7 mm register indexes as argument, and 5 regular registers
74 ; first 11 mean the same as READ_8x4_TRANSPOSED above
75 ; fifth regular register is scratchspace to reach the bottom 8 rows, it
76 ; will be set to second regular register + 8*stride at the end
77 %macro READ_16x4_INTERLEAVED 12
78     ; transpose 16 (A-P) rows of 4 pixels each
79     lea           %12, [r0+8*r2]
80
81     ; read (and interleave) those addressable by %8 (=r0), A/C/D/E/I/K/L/M
82     movd          m%1, [%8+%10*4]   ; A0-3
83     movd          m%3, [%12+%10*4]  ; I0-3
84     movd          m%2, [%8+%10*2]   ; C0-3
85     movd          m%4, [%12+%10*2]  ; K0-3
86     movd          m%6, [%8+%10]     ; D0-3
87     movd          m%5, [%12+%10]    ; L0-3
88     movd          m%7, [%12]        ; M0-3
89     add           %12, %11
90     punpcklbw     m%1, m%3          ; A/I
91     movd          m%3, [%8]         ; E0-3
92     punpcklbw     m%2, m%4          ; C/K
93     punpcklbw     m%6, m%5          ; D/L
94     punpcklbw     m%3, m%7          ; E/M
95     punpcklbw     m%2, m%6          ; C/D/K/L interleaved
96
97     ; read (and interleave) those addressable by %9 (=r4), B/F/G/H/J/N/O/P
98     movd         m%5, [%9+%10*4]   ; B0-3
99     movd         m%4, [%12+%10*4]  ; J0-3
100     movd         m%7, [%9]         ; F0-3
101     movd         m%6, [%12]        ; N0-3
102     punpcklbw    m%5, m%4          ; B/J
103     punpcklbw    m%7, m%6          ; F/N
104     punpcklbw    m%1, m%5          ; A/B/I/J interleaved
105     punpcklbw    m%3, m%7          ; E/F/M/N interleaved
106     movd         m%4, [%9+%11]     ; G0-3
107     movd         m%6, [%12+%11]    ; O0-3
108     movd         m%5, [%9+%11*2]   ; H0-3
109     movd         m%7, [%12+%11*2]  ; P0-3
110     punpcklbw    m%4, m%6          ; G/O
111     punpcklbw    m%5, m%7          ; H/P
112     punpcklbw    m%4, m%5          ; G/H/O/P interleaved
113 %endmacro
114
115 ; write 4 mm registers of 2 dwords each
116 ; first four arguments are mm register indexes containing source data
117 ; last four are registers containing buf+4*stride, buf+5*stride,
118 ; -stride and +stride
119 %macro WRITE_4x2D 8
120     ; write out (2 dwords per register)
121     movd    [%5+%7*4], m%1
122     movd    [%5+%7*2], m%2
123     movd         [%5], m%3
124     movd      [%6+%8], m%4
125     punpckhdq     m%1, m%1
126     punpckhdq     m%2, m%2
127     punpckhdq     m%3, m%3
128     punpckhdq     m%4, m%4
129     movd    [%6+%7*4], m%1
130     movd      [%5+%7], m%2
131     movd         [%6], m%3
132     movd    [%6+%8*2], m%4
133 %endmacro
134
135 ; write 4 xmm registers of 4 dwords each
136 ; arguments same as WRITE_2x4D, but with an extra register, so that the 5 regular
137 ; registers contain buf+4*stride, buf+5*stride, buf+12*stride, -stride and +stride
138 ; we add 1*stride to the third regular registry in the process
139 ; the 10th argument is 16 if it's a Y filter (i.e. all regular registers cover the
140 ; same memory region), or 8 if they cover two separate buffers (third one points to
141 ; a different memory region than the first two), allowing for more optimal code for
142 ; the 16-width case
143 %macro WRITE_4x4D 10
144     ; write out (4 dwords per register), start with dwords zero
145     movd    [%5+%8*4], m%1
146     movd         [%5], m%2
147     movd    [%7+%8*4], m%3
148     movd         [%7], m%4
149
150     ; store dwords 1
151     psrldq        m%1, 4
152     psrldq        m%2, 4
153     psrldq        m%3, 4
154     psrldq        m%4, 4
155     movd    [%6+%8*4], m%1
156     movd         [%6], m%2
157 %if %10 == 16
158     movd    [%6+%9*4], m%3
159 %endif
160     movd      [%7+%9], m%4
161
162     ; write dwords 2
163     psrldq        m%1, 4
164     psrldq        m%2, 4
165 %if %10 == 8
166     movd    [%5+%8*2], m%1
167     movd          %5d, m%3
168 %endif
169     psrldq        m%3, 4
170     psrldq        m%4, 4
171 %if %10 == 16
172     movd    [%5+%8*2], m%1
173 %endif
174     movd      [%6+%9], m%2
175     movd    [%7+%8*2], m%3
176     movd    [%7+%9*2], m%4
177     add            %7, %9
178
179     ; store dwords 3
180     psrldq        m%1, 4
181     psrldq        m%2, 4
182     psrldq        m%3, 4
183     psrldq        m%4, 4
184 %if %10 == 8
185     mov     [%7+%8*4], %5d
186     movd    [%6+%8*2], m%1
187 %else
188     movd      [%5+%8], m%1
189 %endif
190     movd    [%6+%9*2], m%2
191     movd    [%7+%8*2], m%3
192     movd    [%7+%9*2], m%4
193 %endmacro
194
195 ; write 4 or 8 words in the mmx/xmm registers as 8 lines
196 ; 1 and 2 are the registers to write, this can be the same (for SSE2)
197 ; for pre-SSE4:
198 ; 3 is a general-purpose register that we will clobber
199 ; for SSE4:
200 ; 3 is a pointer to the destination's 5th line
201 ; 4 is a pointer to the destination's 4th line
202 ; 5/6 is -stride and +stride
203 %macro WRITE_2x4W 6
204     movd            %3d, %1
205     punpckhdq        %1, %1
206     mov       [%4+%5*4], %3w
207     shr              %3, 16
208     add              %4, %6
209     mov       [%4+%5*4], %3w
210
211     movd            %3d, %1
212     add              %4, %5
213     mov       [%4+%5*2], %3w
214     shr              %3, 16
215     mov       [%4+%5  ], %3w
216
217     movd            %3d, %2
218     punpckhdq        %2, %2
219     mov       [%4     ], %3w
220     shr              %3, 16
221     mov       [%4+%6  ], %3w
222
223     movd            %3d, %2
224     add              %4, %6
225     mov       [%4+%6  ], %3w
226     shr              %3, 16
227     mov       [%4+%6*2], %3w
228     add              %4, %5
229 %endmacro
230
231 %macro WRITE_8W 5
232 %if cpuflag(sse4)
233     pextrw    [%3+%4*4], %1, 0
234     pextrw    [%2+%4*4], %1, 1
235     pextrw    [%3+%4*2], %1, 2
236     pextrw    [%3+%4  ], %1, 3
237     pextrw    [%3     ], %1, 4
238     pextrw    [%2     ], %1, 5
239     pextrw    [%2+%5  ], %1, 6
240     pextrw    [%2+%5*2], %1, 7
241 %else
242     movd            %2d, %1
243     psrldq           %1, 4
244     mov       [%3+%4*4], %2w
245     shr              %2, 16
246     add              %3, %5
247     mov       [%3+%4*4], %2w
248
249     movd            %2d, %1
250     psrldq           %1, 4
251     add              %3, %4
252     mov       [%3+%4*2], %2w
253     shr              %2, 16
254     mov       [%3+%4  ], %2w
255
256     movd            %2d, %1
257     psrldq           %1, 4
258     mov       [%3     ], %2w
259     shr              %2, 16
260     mov       [%3+%5  ], %2w
261
262     movd            %2d, %1
263     add              %3, %5
264     mov       [%3+%5  ], %2w
265     shr              %2, 16
266     mov       [%3+%5*2], %2w
267 %endif
268 %endmacro
269
270 %macro SIMPLE_LOOPFILTER 2
271 cglobal vp8_%1_loop_filter_simple, 3, %2, 8, dst, stride, flim, cntr
272 %if mmsize == 8 ; mmx/mmxext
273     mov         cntrq, 2
274 %endif
275 %if cpuflag(ssse3)
276     pxor           m0, m0
277 %endif
278     SPLATB_REG     m7, flim, m0     ; splat "flim" into register
279
280     ; set up indexes to address 4 rows
281 %if mmsize == 8
282     DEFINE_ARGS dst1, mstride, stride, cntr, dst2
283 %else
284     DEFINE_ARGS dst1, mstride, stride, dst3, dst2
285 %endif
286     mov       strideq, mstrideq
287     neg      mstrideq
288 %ifidn %1, h
289     lea         dst1q, [dst1q+4*strideq-2]
290 %endif
291
292 %if mmsize == 8 ; mmx / mmxext
293 .next8px:
294 %endif
295 %ifidn %1, v
296     ; read 4 half/full rows of pixels
297     mova           m0, [dst1q+mstrideq*2]    ; p1
298     mova           m1, [dst1q+mstrideq]      ; p0
299     mova           m2, [dst1q]               ; q0
300     mova           m3, [dst1q+ strideq]      ; q1
301 %else ; h
302     lea         dst2q, [dst1q+ strideq]
303
304 %if mmsize == 8 ; mmx/mmxext
305     READ_8x4_INTERLEAVED  0, 1, 2, 3, 4, 5, 6, dst1q, dst2q, mstrideq, strideq
306 %else ; sse2
307     READ_16x4_INTERLEAVED 0, 1, 2, 3, 4, 5, 6, dst1q, dst2q, mstrideq, strideq, dst3q
308 %endif
309     TRANSPOSE4x4W         0, 1, 2, 3, 4
310 %endif
311
312     ; simple_limit
313     mova           m5, m2           ; m5=backup of q0
314     mova           m6, m1           ; m6=backup of p0
315     psubusb        m1, m2           ; p0-q0
316     psubusb        m2, m6           ; q0-p0
317     por            m1, m2           ; FFABS(p0-q0)
318     paddusb        m1, m1           ; m1=FFABS(p0-q0)*2
319
320     mova           m4, m3
321     mova           m2, m0
322     psubusb        m3, m0           ; q1-p1
323     psubusb        m0, m4           ; p1-q1
324     por            m3, m0           ; FFABS(p1-q1)
325     mova           m0, [pb_80]
326     pxor           m2, m0
327     pxor           m4, m0
328     psubsb         m2, m4           ; m2=p1-q1 (signed) backup for below
329     pand           m3, [pb_FE]
330     psrlq          m3, 1            ; m3=FFABS(p1-q1)/2, this can be used signed
331     paddusb        m3, m1
332     psubusb        m3, m7
333     pxor           m1, m1
334     pcmpeqb        m3, m1           ; abs(p0-q0)*2+abs(p1-q1)/2<=flim mask(0xff/0x0)
335
336     ; filter_common (use m2/p1-q1, m4=q0, m6=p0, m5/q0-p0 and m3/mask)
337     mova           m4, m5
338     pxor           m5, m0
339     pxor           m0, m6
340     psubsb         m5, m0           ; q0-p0 (signed)
341     paddsb         m2, m5
342     paddsb         m2, m5
343     paddsb         m2, m5           ; a=(p1-q1) + 3*(q0-p0)
344     pand           m2, m3           ; apply filter mask (m3)
345
346     mova           m3, [pb_F8]
347     mova           m1, m2
348     paddsb         m2, [pb_4]       ; f1<<3=a+4
349     paddsb         m1, [pb_3]       ; f2<<3=a+3
350     pand           m2, m3
351     pand           m1, m3           ; cache f2<<3
352
353     pxor           m0, m0
354     pxor           m3, m3
355     pcmpgtb        m0, m2           ; which values are <0?
356     psubb          m3, m2           ; -f1<<3
357     psrlq          m2, 3            ; +f1
358     psrlq          m3, 3            ; -f1
359     pand           m3, m0
360     pandn          m0, m2
361     psubusb        m4, m0
362     paddusb        m4, m3           ; q0-f1
363
364     pxor           m0, m0
365     pxor           m3, m3
366     pcmpgtb        m0, m1           ; which values are <0?
367     psubb          m3, m1           ; -f2<<3
368     psrlq          m1, 3            ; +f2
369     psrlq          m3, 3            ; -f2
370     pand           m3, m0
371     pandn          m0, m1
372     paddusb        m6, m0
373     psubusb        m6, m3           ; p0+f2
374
375     ; store
376 %ifidn %1, v
377     mova      [dst1q], m4
378     mova [dst1q+mstrideq], m6
379 %else ; h
380     inc        dst1q
381     SBUTTERFLY    bw, 6, 4, 0
382
383 %if mmsize == 16 ; sse2
384 %if cpuflag(sse4)
385     inc         dst2q
386 %endif
387     WRITE_8W       m6, dst2q, dst1q, mstrideq, strideq
388     lea         dst2q, [dst3q+mstrideq+1]
389 %if cpuflag(sse4)
390     inc         dst3q
391 %endif
392     WRITE_8W       m4, dst3q, dst2q, mstrideq, strideq
393 %else ; mmx/mmxext
394     WRITE_2x4W     m6, m4, dst2q, dst1q, mstrideq, strideq
395 %endif
396 %endif
397
398 %if mmsize == 8 ; mmx/mmxext
399     ; next 8 pixels
400 %ifidn %1, v
401     add         dst1q, 8            ; advance 8 cols = pixels
402 %else ; h
403     lea         dst1q, [dst1q+strideq*8-1]  ; advance 8 rows = lines
404 %endif
405     dec         cntrq
406     jg .next8px
407     REP_RET
408 %else ; sse2
409     RET
410 %endif
411 %endmacro
412
413 %if ARCH_X86_32
414 INIT_MMX mmx
415 SIMPLE_LOOPFILTER v, 4
416 SIMPLE_LOOPFILTER h, 5
417 INIT_MMX mmxext
418 SIMPLE_LOOPFILTER v, 4
419 SIMPLE_LOOPFILTER h, 5
420 %endif
421
422 INIT_XMM sse2
423 SIMPLE_LOOPFILTER v, 3
424 SIMPLE_LOOPFILTER h, 5
425 INIT_XMM ssse3
426 SIMPLE_LOOPFILTER v, 3
427 SIMPLE_LOOPFILTER h, 5
428 INIT_XMM sse4
429 SIMPLE_LOOPFILTER h, 5
430
431 ;-----------------------------------------------------------------------------
432 ; void ff_vp8_h/v_loop_filter<size>_inner_<opt>(uint8_t *dst, [uint8_t *v,] int stride,
433 ;                                               int flimE, int flimI, int hev_thr);
434 ;-----------------------------------------------------------------------------
435
436 %macro INNER_LOOPFILTER 2
437 %define stack_size 0
438 %ifndef m8   ; stack layout: [0]=E, [1]=I, [2]=hev_thr
439 %ifidn %1, v ;               [3]=hev() result
440 %define stack_size mmsize * -4
441 %else ; h    ; extra storage space for transposes
442 %define stack_size mmsize * -5
443 %endif
444 %endif
445
446 %if %2 == 8 ; chroma
447 cglobal vp8_%1_loop_filter8uv_inner, 6, 6, 13, stack_size, dst, dst8, stride, flimE, flimI, hevthr
448 %else ; luma
449 cglobal vp8_%1_loop_filter16y_inner, 5, 5, 13, stack_size, dst, stride, flimE, flimI, hevthr
450 %endif
451
452 %if cpuflag(ssse3)
453     pxor             m7, m7
454 %endif
455
456 %ifndef m8
457     ; splat function arguments
458     SPLATB_REG       m0, flimEq, m7   ; E
459     SPLATB_REG       m1, flimIq, m7   ; I
460     SPLATB_REG       m2, hevthrq, m7  ; hev_thresh
461
462 %define m_flimE    [rsp]
463 %define m_flimI    [rsp+mmsize]
464 %define m_hevthr   [rsp+mmsize*2]
465 %define m_maskres  [rsp+mmsize*3]
466 %define m_p0backup [rsp+mmsize*3]
467 %define m_q0backup [rsp+mmsize*4]
468
469     mova        m_flimE, m0
470     mova        m_flimI, m1
471     mova       m_hevthr, m2
472 %else
473 %define m_flimE    m9
474 %define m_flimI    m10
475 %define m_hevthr   m11
476 %define m_maskres  m12
477 %define m_p0backup m12
478 %define m_q0backup m8
479
480     ; splat function arguments
481     SPLATB_REG  m_flimE, flimEq, m7   ; E
482     SPLATB_REG  m_flimI, flimIq, m7   ; I
483     SPLATB_REG m_hevthr, hevthrq, m7  ; hev_thresh
484 %endif
485
486 %if %2 == 8 ; chroma
487     DEFINE_ARGS dst1, dst8, mstride, stride, dst2
488 %elif mmsize == 8
489     DEFINE_ARGS dst1, mstride, stride, dst2, cntr
490     mov           cntrq, 2
491 %else
492     DEFINE_ARGS dst1, mstride, stride, dst2, dst8
493 %endif
494     mov         strideq, mstrideq
495     neg        mstrideq
496 %ifidn %1, h
497     lea           dst1q, [dst1q+strideq*4-4]
498 %if %2 == 8 ; chroma
499     lea           dst8q, [dst8q+strideq*4-4]
500 %endif
501 %endif
502
503 %if mmsize == 8
504 .next8px:
505 %endif
506     ; read
507     lea           dst2q, [dst1q+strideq]
508 %ifidn %1, v
509 %if %2 == 8 && mmsize == 16
510 %define movrow movh
511 %else
512 %define movrow mova
513 %endif
514     movrow           m0, [dst1q+mstrideq*4] ; p3
515     movrow           m1, [dst2q+mstrideq*4] ; p2
516     movrow           m2, [dst1q+mstrideq*2] ; p1
517     movrow           m5, [dst2q]            ; q1
518     movrow           m6, [dst2q+ strideq*1] ; q2
519     movrow           m7, [dst2q+ strideq*2] ; q3
520 %if mmsize == 16 && %2 == 8
521     movhps           m0, [dst8q+mstrideq*4]
522     movhps           m2, [dst8q+mstrideq*2]
523     add           dst8q, strideq
524     movhps           m1, [dst8q+mstrideq*4]
525     movhps           m5, [dst8q]
526     movhps           m6, [dst8q+ strideq  ]
527     movhps           m7, [dst8q+ strideq*2]
528     add           dst8q, mstrideq
529 %endif
530 %elif mmsize == 8 ; mmx/mmxext (h)
531     ; read 8 rows of 8px each
532     movu             m0, [dst1q+mstrideq*4]
533     movu             m1, [dst2q+mstrideq*4]
534     movu             m2, [dst1q+mstrideq*2]
535     movu             m3, [dst1q+mstrideq  ]
536     movu             m4, [dst1q]
537     movu             m5, [dst2q]
538     movu             m6, [dst2q+ strideq  ]
539
540     ; 8x8 transpose
541     TRANSPOSE4x4B     0, 1, 2, 3, 7
542     mova     m_q0backup, m1
543     movu             m7, [dst2q+ strideq*2]
544     TRANSPOSE4x4B     4, 5, 6, 7, 1
545     SBUTTERFLY       dq, 0, 4, 1     ; p3/p2
546     SBUTTERFLY       dq, 2, 6, 1     ; q0/q1
547     SBUTTERFLY       dq, 3, 7, 1     ; q2/q3
548     mova             m1, m_q0backup
549     mova     m_q0backup, m2          ; store q0
550     SBUTTERFLY       dq, 1, 5, 2     ; p1/p0
551     mova     m_p0backup, m5          ; store p0
552     SWAP              1, 4
553     SWAP              2, 4
554     SWAP              6, 3
555     SWAP              5, 3
556 %else ; sse2 (h)
557 %if %2 == 16
558     lea           dst8q, [dst1q+ strideq*8]
559 %endif
560
561     ; read 16 rows of 8px each, interleave
562     movh             m0, [dst1q+mstrideq*4]
563     movh             m1, [dst8q+mstrideq*4]
564     movh             m2, [dst1q+mstrideq*2]
565     movh             m5, [dst8q+mstrideq*2]
566     movh             m3, [dst1q+mstrideq  ]
567     movh             m6, [dst8q+mstrideq  ]
568     movh             m4, [dst1q]
569     movh             m7, [dst8q]
570     punpcklbw        m0, m1          ; A/I
571     punpcklbw        m2, m5          ; C/K
572     punpcklbw        m3, m6          ; D/L
573     punpcklbw        m4, m7          ; E/M
574
575     add           dst8q, strideq
576     movh             m1, [dst2q+mstrideq*4]
577     movh             m6, [dst8q+mstrideq*4]
578     movh             m5, [dst2q]
579     movh             m7, [dst8q]
580     punpcklbw        m1, m6          ; B/J
581     punpcklbw        m5, m7          ; F/N
582     movh             m6, [dst2q+ strideq  ]
583     movh             m7, [dst8q+ strideq  ]
584     punpcklbw        m6, m7          ; G/O
585
586     ; 8x16 transpose
587     TRANSPOSE4x4B     0, 1, 2, 3, 7
588 %ifdef m8
589     SWAP              1, 8
590 %else
591     mova     m_q0backup, m1
592 %endif
593     movh             m7, [dst2q+ strideq*2]
594     movh             m1, [dst8q+ strideq*2]
595     punpcklbw        m7, m1          ; H/P
596     TRANSPOSE4x4B     4, 5, 6, 7, 1
597     SBUTTERFLY       dq, 0, 4, 1     ; p3/p2
598     SBUTTERFLY       dq, 2, 6, 1     ; q0/q1
599     SBUTTERFLY       dq, 3, 7, 1     ; q2/q3
600 %ifdef m8
601     SWAP              1, 8
602     SWAP              2, 8
603 %else
604     mova             m1, m_q0backup
605     mova     m_q0backup, m2          ; store q0
606 %endif
607     SBUTTERFLY       dq, 1, 5, 2     ; p1/p0
608 %ifdef m12
609     SWAP              5, 12
610 %else
611     mova     m_p0backup, m5          ; store p0
612 %endif
613     SWAP              1, 4
614     SWAP              2, 4
615     SWAP              6, 3
616     SWAP              5, 3
617 %endif
618
619     ; normal_limit for p3-p2, p2-p1, q3-q2 and q2-q1
620     mova             m4, m1
621     SWAP              4, 1
622     psubusb          m4, m0          ; p2-p3
623     psubusb          m0, m1          ; p3-p2
624     por              m0, m4          ; abs(p3-p2)
625
626     mova             m4, m2
627     SWAP              4, 2
628     psubusb          m4, m1          ; p1-p2
629     psubusb          m1, m2          ; p2-p1
630     por              m1, m4          ; abs(p2-p1)
631
632     mova             m4, m6
633     SWAP              4, 6
634     psubusb          m4, m7          ; q2-q3
635     psubusb          m7, m6          ; q3-q2
636     por              m7, m4          ; abs(q3-q2)
637
638     mova             m4, m5
639     SWAP              4, 5
640     psubusb          m4, m6          ; q1-q2
641     psubusb          m6, m5          ; q2-q1
642     por              m6, m4          ; abs(q2-q1)
643
644 %if notcpuflag(mmxext)
645     mova             m4, m_flimI
646     pxor             m3, m3
647     psubusb          m0, m4
648     psubusb          m1, m4
649     psubusb          m7, m4
650     psubusb          m6, m4
651     pcmpeqb          m0, m3          ; abs(p3-p2) <= I
652     pcmpeqb          m1, m3          ; abs(p2-p1) <= I
653     pcmpeqb          m7, m3          ; abs(q3-q2) <= I
654     pcmpeqb          m6, m3          ; abs(q2-q1) <= I
655     pand             m0, m1
656     pand             m7, m6
657     pand             m0, m7
658 %else ; mmxext/sse2
659     pmaxub           m0, m1
660     pmaxub           m6, m7
661     pmaxub           m0, m6
662 %endif
663
664     ; normal_limit and high_edge_variance for p1-p0, q1-q0
665     SWAP              7, 3           ; now m7 is zero
666 %ifidn %1, v
667     movrow           m3, [dst1q+mstrideq  ] ; p0
668 %if mmsize == 16 && %2 == 8
669     movhps           m3, [dst8q+mstrideq  ]
670 %endif
671 %elifdef m12
672     SWAP              3, 12
673 %else
674     mova             m3, m_p0backup
675 %endif
676
677     mova             m1, m2
678     SWAP              1, 2
679     mova             m6, m3
680     SWAP              3, 6
681     psubusb          m1, m3          ; p1-p0
682     psubusb          m6, m2          ; p0-p1
683     por              m1, m6          ; abs(p1-p0)
684 %if notcpuflag(mmxext)
685     mova             m6, m1
686     psubusb          m1, m4
687     psubusb          m6, m_hevthr
688     pcmpeqb          m1, m7          ; abs(p1-p0) <= I
689     pcmpeqb          m6, m7          ; abs(p1-p0) <= hev_thresh
690     pand             m0, m1
691     mova      m_maskres, m6
692 %else ; mmxext/sse2
693     pmaxub           m0, m1          ; max_I
694     SWAP              1, 4           ; max_hev_thresh
695 %endif
696
697     SWAP              6, 4           ; now m6 is I
698 %ifidn %1, v
699     movrow           m4, [dst1q]     ; q0
700 %if mmsize == 16 && %2 == 8
701     movhps           m4, [dst8q]
702 %endif
703 %elifdef m8
704     SWAP              4, 8
705 %else
706     mova             m4, m_q0backup
707 %endif
708     mova             m1, m4
709     SWAP              1, 4
710     mova             m7, m5
711     SWAP              7, 5
712     psubusb          m1, m5          ; q0-q1
713     psubusb          m7, m4          ; q1-q0
714     por              m1, m7          ; abs(q1-q0)
715 %if notcpuflag(mmxext)
716     mova             m7, m1
717     psubusb          m1, m6
718     psubusb          m7, m_hevthr
719     pxor             m6, m6
720     pcmpeqb          m1, m6          ; abs(q1-q0) <= I
721     pcmpeqb          m7, m6          ; abs(q1-q0) <= hev_thresh
722     mova             m6, m_maskres
723     pand             m0, m1          ; abs([pq][321]-[pq][210]) <= I
724     pand             m6, m7
725 %else ; mmxext/sse2
726     pxor             m7, m7
727     pmaxub           m0, m1
728     pmaxub           m6, m1
729     psubusb          m0, m_flimI
730     psubusb          m6, m_hevthr
731     pcmpeqb          m0, m7          ; max(abs(..)) <= I
732     pcmpeqb          m6, m7          ; !(max(abs..) > thresh)
733 %endif
734 %ifdef m12
735     SWAP              6, 12
736 %else
737     mova      m_maskres, m6          ; !(abs(p1-p0) > hev_t || abs(q1-q0) > hev_t)
738 %endif
739
740     ; simple_limit
741     mova             m1, m3
742     SWAP              1, 3
743     mova             m6, m4          ; keep copies of p0/q0 around for later use
744     SWAP              6, 4
745     psubusb          m1, m4          ; p0-q0
746     psubusb          m6, m3          ; q0-p0
747     por              m1, m6          ; abs(q0-p0)
748     paddusb          m1, m1          ; m1=2*abs(q0-p0)
749
750     mova             m7, m2
751     SWAP              7, 2
752     mova             m6, m5
753     SWAP              6, 5
754     psubusb          m7, m5          ; p1-q1
755     psubusb          m6, m2          ; q1-p1
756     por              m7, m6          ; abs(q1-p1)
757     pxor             m6, m6
758     pand             m7, [pb_FE]
759     psrlq            m7, 1           ; abs(q1-p1)/2
760     paddusb          m7, m1          ; abs(q0-p0)*2+abs(q1-p1)/2
761     psubusb          m7, m_flimE
762     pcmpeqb          m7, m6          ; abs(q0-p0)*2+abs(q1-p1)/2 <= E
763     pand             m0, m7          ; normal_limit result
764
765     ; filter_common; at this point, m2-m5=p1-q1 and m0 is filter_mask
766 %ifdef m8 ; x86-64 && sse2
767     mova             m8, [pb_80]
768 %define m_pb_80 m8
769 %else ; x86-32 or mmx/mmxext
770 %define m_pb_80 [pb_80]
771 %endif
772     mova             m1, m4
773     mova             m7, m3
774     pxor             m1, m_pb_80
775     pxor             m7, m_pb_80
776     psubsb           m1, m7          ; (signed) q0-p0
777     mova             m6, m2
778     mova             m7, m5
779     pxor             m6, m_pb_80
780     pxor             m7, m_pb_80
781     psubsb           m6, m7          ; (signed) p1-q1
782     mova             m7, m_maskres
783     pandn            m7, m6
784     paddsb           m7, m1
785     paddsb           m7, m1
786     paddsb           m7, m1          ; 3*(q0-p0)+is4tap?(p1-q1)
787
788     pand             m7, m0
789     mova             m1, [pb_F8]
790     mova             m6, m7
791     paddsb           m7, [pb_3]
792     paddsb           m6, [pb_4]
793     pand             m7, m1
794     pand             m6, m1
795
796     pxor             m1, m1
797     pxor             m0, m0
798     pcmpgtb          m1, m7
799     psubb            m0, m7
800     psrlq            m7, 3           ; +f2
801     psrlq            m0, 3           ; -f2
802     pand             m0, m1
803     pandn            m1, m7
804     psubusb          m3, m0
805     paddusb          m3, m1          ; p0+f2
806
807     pxor             m1, m1
808     pxor             m0, m0
809     pcmpgtb          m0, m6
810     psubb            m1, m6
811     psrlq            m6, 3           ; +f1
812     psrlq            m1, 3           ; -f1
813     pand             m1, m0
814     pandn            m0, m6
815     psubusb          m4, m0
816     paddusb          m4, m1          ; q0-f1
817
818 %ifdef m12
819     SWAP              6, 12
820 %else
821     mova             m6, m_maskres
822 %endif
823 %if notcpuflag(mmxext)
824     mova             m7, [pb_1]
825 %else ; mmxext/sse2
826     pxor             m7, m7
827 %endif
828     pand             m0, m6
829     pand             m1, m6
830 %if notcpuflag(mmxext)
831     paddusb          m0, m7
832     pand             m1, [pb_FE]
833     pandn            m7, m0
834     psrlq            m1, 1
835     psrlq            m7, 1
836     SWAP              0, 7
837 %else ; mmxext/sse2
838     psubusb          m1, [pb_1]
839     pavgb            m0, m7          ; a
840     pavgb            m1, m7          ; -a
841 %endif
842     psubusb          m5, m0
843     psubusb          m2, m1
844     paddusb          m5, m1          ; q1-a
845     paddusb          m2, m0          ; p1+a
846
847     ; store
848 %ifidn %1, v
849     movrow [dst1q+mstrideq*2], m2
850     movrow [dst1q+mstrideq  ], m3
851     movrow      [dst1q], m4
852     movrow [dst1q+ strideq  ], m5
853 %if mmsize == 16 && %2 == 8
854     movhps [dst8q+mstrideq*2], m2
855     movhps [dst8q+mstrideq  ], m3
856     movhps      [dst8q], m4
857     movhps [dst8q+ strideq  ], m5
858 %endif
859 %else ; h
860     add           dst1q, 2
861     add           dst2q, 2
862
863     ; 4x8/16 transpose
864     TRANSPOSE4x4B     2, 3, 4, 5, 6
865
866 %if mmsize == 8 ; mmx/mmxext (h)
867     WRITE_4x2D        2, 3, 4, 5, dst1q, dst2q, mstrideq, strideq
868 %else ; sse2 (h)
869     lea           dst8q, [dst8q+mstrideq  +2]
870     WRITE_4x4D        2, 3, 4, 5, dst1q, dst2q, dst8q, mstrideq, strideq, %2
871 %endif
872 %endif
873
874 %if mmsize == 8
875 %if %2 == 8 ; chroma
876 %ifidn %1, h
877     sub           dst1q, 2
878 %endif
879     cmp           dst1q, dst8q
880     mov           dst1q, dst8q
881     jnz .next8px
882 %else
883 %ifidn %1, h
884     lea           dst1q, [dst1q+ strideq*8-2]
885 %else ; v
886     add           dst1q, 8
887 %endif
888     dec           cntrq
889     jg .next8px
890 %endif
891     REP_RET
892 %else ; mmsize == 16
893     RET
894 %endif
895 %endmacro
896
897 %if ARCH_X86_32
898 INIT_MMX mmx
899 INNER_LOOPFILTER v, 16
900 INNER_LOOPFILTER h, 16
901 INNER_LOOPFILTER v,  8
902 INNER_LOOPFILTER h,  8
903
904 INIT_MMX mmxext
905 INNER_LOOPFILTER v, 16
906 INNER_LOOPFILTER h, 16
907 INNER_LOOPFILTER v,  8
908 INNER_LOOPFILTER h,  8
909 %endif
910
911 INIT_XMM sse2
912 INNER_LOOPFILTER v, 16
913 INNER_LOOPFILTER h, 16
914 INNER_LOOPFILTER v,  8
915 INNER_LOOPFILTER h,  8
916
917 INIT_XMM ssse3
918 INNER_LOOPFILTER v, 16
919 INNER_LOOPFILTER h, 16
920 INNER_LOOPFILTER v,  8
921 INNER_LOOPFILTER h,  8
922
923 ;-----------------------------------------------------------------------------
924 ; void ff_vp8_h/v_loop_filter<size>_mbedge_<opt>(uint8_t *dst, [uint8_t *v,] int stride,
925 ;                                                int flimE, int flimI, int hev_thr);
926 ;-----------------------------------------------------------------------------
927
928 %macro MBEDGE_LOOPFILTER 2
929 %define stack_size 0
930 %ifndef m8       ; stack layout: [0]=E, [1]=I, [2]=hev_thr
931 %if mmsize == 16 ;               [3]=hev() result
932                  ;               [4]=filter tmp result
933                  ;               [5]/[6] = p2/q2 backup
934                  ;               [7]=lim_res sign result
935 %define stack_size mmsize * -7
936 %else ; 8        ; extra storage space for transposes
937 %define stack_size mmsize * -8
938 %endif
939 %endif
940
941 %if %2 == 8 ; chroma
942 cglobal vp8_%1_loop_filter8uv_mbedge, 6, 6, 15, stack_size, dst1, dst8, stride, flimE, flimI, hevthr
943 %else ; luma
944 cglobal vp8_%1_loop_filter16y_mbedge, 5, 5, 15, stack_size, dst1, stride, flimE, flimI, hevthr
945 %endif
946
947 %if cpuflag(ssse3)
948     pxor             m7, m7
949 %endif
950
951 %ifndef m8
952     ; splat function arguments
953     SPLATB_REG       m0, flimEq, m7   ; E
954     SPLATB_REG       m1, flimIq, m7   ; I
955     SPLATB_REG       m2, hevthrq, m7  ; hev_thresh
956
957 %define m_flimE    [rsp]
958 %define m_flimI    [rsp+mmsize]
959 %define m_hevthr   [rsp+mmsize*2]
960 %define m_maskres  [rsp+mmsize*3]
961 %define m_limres   [rsp+mmsize*4]
962 %define m_p0backup [rsp+mmsize*3]
963 %define m_q0backup [rsp+mmsize*4]
964 %define m_p2backup [rsp+mmsize*5]
965 %define m_q2backup [rsp+mmsize*6]
966 %if mmsize == 16
967 %define m_limsign  [rsp]
968 %else
969 %define m_limsign  [rsp+mmsize*7]
970 %endif
971
972     mova        m_flimE, m0
973     mova        m_flimI, m1
974     mova       m_hevthr, m2
975 %else ; sse2 on x86-64
976 %define m_flimE    m9
977 %define m_flimI    m10
978 %define m_hevthr   m11
979 %define m_maskres  m12
980 %define m_limres   m8
981 %define m_p0backup m12
982 %define m_q0backup m8
983 %define m_p2backup m13
984 %define m_q2backup m14
985 %define m_limsign  m9
986
987     ; splat function arguments
988     SPLATB_REG  m_flimE, flimEq, m7   ; E
989     SPLATB_REG  m_flimI, flimIq, m7   ; I
990     SPLATB_REG m_hevthr, hevthrq, m7  ; hev_thresh
991 %endif
992
993 %if %2 == 8 ; chroma
994     DEFINE_ARGS dst1, dst8, mstride, stride, dst2
995 %elif mmsize == 8
996     DEFINE_ARGS dst1, mstride, stride, dst2, cntr
997     mov           cntrq, 2
998 %else
999     DEFINE_ARGS dst1, mstride, stride, dst2, dst8
1000 %endif
1001     mov         strideq, mstrideq
1002     neg        mstrideq
1003 %ifidn %1, h
1004     lea           dst1q, [dst1q+strideq*4-4]
1005 %if %2 == 8 ; chroma
1006     lea           dst8q, [dst8q+strideq*4-4]
1007 %endif
1008 %endif
1009
1010 %if mmsize == 8
1011 .next8px:
1012 %endif
1013     ; read
1014     lea           dst2q, [dst1q+ strideq  ]
1015 %ifidn %1, v
1016 %if %2 == 8 && mmsize == 16
1017 %define movrow movh
1018 %else
1019 %define movrow mova
1020 %endif
1021     movrow           m0, [dst1q+mstrideq*4] ; p3
1022     movrow           m1, [dst2q+mstrideq*4] ; p2
1023     movrow           m2, [dst1q+mstrideq*2] ; p1
1024     movrow           m5, [dst2q]            ; q1
1025     movrow           m6, [dst2q+ strideq  ] ; q2
1026     movrow           m7, [dst2q+ strideq*2] ; q3
1027 %if mmsize == 16 && %2 == 8
1028     movhps           m0, [dst8q+mstrideq*4]
1029     movhps           m2, [dst8q+mstrideq*2]
1030     add           dst8q, strideq
1031     movhps           m1, [dst8q+mstrideq*4]
1032     movhps           m5, [dst8q]
1033     movhps           m6, [dst8q+ strideq  ]
1034     movhps           m7, [dst8q+ strideq*2]
1035     add           dst8q, mstrideq
1036 %endif
1037 %elif mmsize == 8 ; mmx/mmxext (h)
1038     ; read 8 rows of 8px each
1039     movu             m0, [dst1q+mstrideq*4]
1040     movu             m1, [dst2q+mstrideq*4]
1041     movu             m2, [dst1q+mstrideq*2]
1042     movu             m3, [dst1q+mstrideq  ]
1043     movu             m4, [dst1q]
1044     movu             m5, [dst2q]
1045     movu             m6, [dst2q+ strideq  ]
1046
1047     ; 8x8 transpose
1048     TRANSPOSE4x4B     0, 1, 2, 3, 7
1049     mova     m_q0backup, m1
1050     movu             m7, [dst2q+ strideq*2]
1051     TRANSPOSE4x4B     4, 5, 6, 7, 1
1052     SBUTTERFLY       dq, 0, 4, 1     ; p3/p2
1053     SBUTTERFLY       dq, 2, 6, 1     ; q0/q1
1054     SBUTTERFLY       dq, 3, 7, 1     ; q2/q3
1055     mova             m1, m_q0backup
1056     mova     m_q0backup, m2          ; store q0
1057     SBUTTERFLY       dq, 1, 5, 2     ; p1/p0
1058     mova     m_p0backup, m5          ; store p0
1059     SWAP              1, 4
1060     SWAP              2, 4
1061     SWAP              6, 3
1062     SWAP              5, 3
1063 %else ; sse2 (h)
1064 %if %2 == 16
1065     lea           dst8q, [dst1q+ strideq*8  ]
1066 %endif
1067
1068     ; read 16 rows of 8px each, interleave
1069     movh             m0, [dst1q+mstrideq*4]
1070     movh             m1, [dst8q+mstrideq*4]
1071     movh             m2, [dst1q+mstrideq*2]
1072     movh             m5, [dst8q+mstrideq*2]
1073     movh             m3, [dst1q+mstrideq  ]
1074     movh             m6, [dst8q+mstrideq  ]
1075     movh             m4, [dst1q]
1076     movh             m7, [dst8q]
1077     punpcklbw        m0, m1          ; A/I
1078     punpcklbw        m2, m5          ; C/K
1079     punpcklbw        m3, m6          ; D/L
1080     punpcklbw        m4, m7          ; E/M
1081
1082     add           dst8q, strideq
1083     movh             m1, [dst2q+mstrideq*4]
1084     movh             m6, [dst8q+mstrideq*4]
1085     movh             m5, [dst2q]
1086     movh             m7, [dst8q]
1087     punpcklbw        m1, m6          ; B/J
1088     punpcklbw        m5, m7          ; F/N
1089     movh             m6, [dst2q+ strideq  ]
1090     movh             m7, [dst8q+ strideq  ]
1091     punpcklbw        m6, m7          ; G/O
1092
1093     ; 8x16 transpose
1094     TRANSPOSE4x4B     0, 1, 2, 3, 7
1095 %ifdef m8
1096     SWAP              1, 8
1097 %else
1098     mova     m_q0backup, m1
1099 %endif
1100     movh             m7, [dst2q+ strideq*2]
1101     movh             m1, [dst8q+ strideq*2]
1102     punpcklbw        m7, m1          ; H/P
1103     TRANSPOSE4x4B     4, 5, 6, 7, 1
1104     SBUTTERFLY       dq, 0, 4, 1     ; p3/p2
1105     SBUTTERFLY       dq, 2, 6, 1     ; q0/q1
1106     SBUTTERFLY       dq, 3, 7, 1     ; q2/q3
1107 %ifdef m8
1108     SWAP              1, 8
1109     SWAP              2, 8
1110 %else
1111     mova             m1, m_q0backup
1112     mova     m_q0backup, m2          ; store q0
1113 %endif
1114     SBUTTERFLY       dq, 1, 5, 2     ; p1/p0
1115 %ifdef m12
1116     SWAP              5, 12
1117 %else
1118     mova     m_p0backup, m5          ; store p0
1119 %endif
1120     SWAP              1, 4
1121     SWAP              2, 4
1122     SWAP              6, 3
1123     SWAP              5, 3
1124 %endif
1125
1126     ; normal_limit for p3-p2, p2-p1, q3-q2 and q2-q1
1127     mova             m4, m1
1128     SWAP              4, 1
1129     psubusb          m4, m0          ; p2-p3
1130     psubusb          m0, m1          ; p3-p2
1131     por              m0, m4          ; abs(p3-p2)
1132
1133     mova             m4, m2
1134     SWAP              4, 2
1135     psubusb          m4, m1          ; p1-p2
1136     mova     m_p2backup, m1
1137     psubusb          m1, m2          ; p2-p1
1138     por              m1, m4          ; abs(p2-p1)
1139
1140     mova             m4, m6
1141     SWAP              4, 6
1142     psubusb          m4, m7          ; q2-q3
1143     psubusb          m7, m6          ; q3-q2
1144     por              m7, m4          ; abs(q3-q2)
1145
1146     mova             m4, m5
1147     SWAP              4, 5
1148     psubusb          m4, m6          ; q1-q2
1149     mova     m_q2backup, m6
1150     psubusb          m6, m5          ; q2-q1
1151     por              m6, m4          ; abs(q2-q1)
1152
1153 %if notcpuflag(mmxext)
1154     mova             m4, m_flimI
1155     pxor             m3, m3
1156     psubusb          m0, m4
1157     psubusb          m1, m4
1158     psubusb          m7, m4
1159     psubusb          m6, m4
1160     pcmpeqb          m0, m3          ; abs(p3-p2) <= I
1161     pcmpeqb          m1, m3          ; abs(p2-p1) <= I
1162     pcmpeqb          m7, m3          ; abs(q3-q2) <= I
1163     pcmpeqb          m6, m3          ; abs(q2-q1) <= I
1164     pand             m0, m1
1165     pand             m7, m6
1166     pand             m0, m7
1167 %else ; mmxext/sse2
1168     pmaxub           m0, m1
1169     pmaxub           m6, m7
1170     pmaxub           m0, m6
1171 %endif
1172
1173     ; normal_limit and high_edge_variance for p1-p0, q1-q0
1174     SWAP              7, 3           ; now m7 is zero
1175 %ifidn %1, v
1176     movrow           m3, [dst1q+mstrideq  ] ; p0
1177 %if mmsize == 16 && %2 == 8
1178     movhps           m3, [dst8q+mstrideq  ]
1179 %endif
1180 %elifdef m12
1181     SWAP              3, 12
1182 %else
1183     mova             m3, m_p0backup
1184 %endif
1185
1186     mova             m1, m2
1187     SWAP              1, 2
1188     mova             m6, m3
1189     SWAP              3, 6
1190     psubusb          m1, m3          ; p1-p0
1191     psubusb          m6, m2          ; p0-p1
1192     por              m1, m6          ; abs(p1-p0)
1193 %if notcpuflag(mmxext)
1194     mova             m6, m1
1195     psubusb          m1, m4
1196     psubusb          m6, m_hevthr
1197     pcmpeqb          m1, m7          ; abs(p1-p0) <= I
1198     pcmpeqb          m6, m7          ; abs(p1-p0) <= hev_thresh
1199     pand             m0, m1
1200     mova      m_maskres, m6
1201 %else ; mmxext/sse2
1202     pmaxub           m0, m1          ; max_I
1203     SWAP              1, 4           ; max_hev_thresh
1204 %endif
1205
1206     SWAP              6, 4           ; now m6 is I
1207 %ifidn %1, v
1208     movrow           m4, [dst1q]     ; q0
1209 %if mmsize == 16 && %2 == 8
1210     movhps           m4, [dst8q]
1211 %endif
1212 %elifdef m8
1213     SWAP              4, 8
1214 %else
1215     mova             m4, m_q0backup
1216 %endif
1217     mova             m1, m4
1218     SWAP              1, 4
1219     mova             m7, m5
1220     SWAP              7, 5
1221     psubusb          m1, m5          ; q0-q1
1222     psubusb          m7, m4          ; q1-q0
1223     por              m1, m7          ; abs(q1-q0)
1224 %if notcpuflag(mmxext)
1225     mova             m7, m1
1226     psubusb          m1, m6
1227     psubusb          m7, m_hevthr
1228     pxor             m6, m6
1229     pcmpeqb          m1, m6          ; abs(q1-q0) <= I
1230     pcmpeqb          m7, m6          ; abs(q1-q0) <= hev_thresh
1231     mova             m6, m_maskres
1232     pand             m0, m1          ; abs([pq][321]-[pq][210]) <= I
1233     pand             m6, m7
1234 %else ; mmxext/sse2
1235     pxor             m7, m7
1236     pmaxub           m0, m1
1237     pmaxub           m6, m1
1238     psubusb          m0, m_flimI
1239     psubusb          m6, m_hevthr
1240     pcmpeqb          m0, m7          ; max(abs(..)) <= I
1241     pcmpeqb          m6, m7          ; !(max(abs..) > thresh)
1242 %endif
1243 %ifdef m12
1244     SWAP              6, 12
1245 %else
1246     mova      m_maskres, m6          ; !(abs(p1-p0) > hev_t || abs(q1-q0) > hev_t)
1247 %endif
1248
1249     ; simple_limit
1250     mova             m1, m3
1251     SWAP              1, 3
1252     mova             m6, m4          ; keep copies of p0/q0 around for later use
1253     SWAP              6, 4
1254     psubusb          m1, m4          ; p0-q0
1255     psubusb          m6, m3          ; q0-p0
1256     por              m1, m6          ; abs(q0-p0)
1257     paddusb          m1, m1          ; m1=2*abs(q0-p0)
1258
1259     mova             m7, m2
1260     SWAP              7, 2
1261     mova             m6, m5
1262     SWAP              6, 5
1263     psubusb          m7, m5          ; p1-q1
1264     psubusb          m6, m2          ; q1-p1
1265     por              m7, m6          ; abs(q1-p1)
1266     pxor             m6, m6
1267     pand             m7, [pb_FE]
1268     psrlq            m7, 1           ; abs(q1-p1)/2
1269     paddusb          m7, m1          ; abs(q0-p0)*2+abs(q1-p1)/2
1270     psubusb          m7, m_flimE
1271     pcmpeqb          m7, m6          ; abs(q0-p0)*2+abs(q1-p1)/2 <= E
1272     pand             m0, m7          ; normal_limit result
1273
1274     ; filter_common; at this point, m2-m5=p1-q1 and m0 is filter_mask
1275 %ifdef m8 ; x86-64 && sse2
1276     mova             m8, [pb_80]
1277 %define m_pb_80 m8
1278 %else ; x86-32 or mmx/mmxext
1279 %define m_pb_80 [pb_80]
1280 %endif
1281     mova             m1, m4
1282     mova             m7, m3
1283     pxor             m1, m_pb_80
1284     pxor             m7, m_pb_80
1285     psubsb           m1, m7          ; (signed) q0-p0
1286     mova             m6, m2
1287     mova             m7, m5
1288     pxor             m6, m_pb_80
1289     pxor             m7, m_pb_80
1290     psubsb           m6, m7          ; (signed) p1-q1
1291     mova             m7, m_maskres
1292     paddsb           m6, m1
1293     paddsb           m6, m1
1294     paddsb           m6, m1
1295     pand             m6, m0
1296 %ifdef m8
1297     mova       m_limres, m6          ; 3*(qp-p0)+(p1-q1) masked for filter_mbedge
1298     pand       m_limres, m7
1299 %else
1300     mova             m0, m6
1301     pand             m0, m7
1302     mova       m_limres, m0
1303 %endif
1304     pandn            m7, m6          ; 3*(q0-p0)+(p1-q1) masked for filter_common
1305
1306     mova             m1, [pb_F8]
1307     mova             m6, m7
1308     paddsb           m7, [pb_3]
1309     paddsb           m6, [pb_4]
1310     pand             m7, m1
1311     pand             m6, m1
1312
1313     pxor             m1, m1
1314     pxor             m0, m0
1315     pcmpgtb          m1, m7
1316     psubb            m0, m7
1317     psrlq            m7, 3           ; +f2
1318     psrlq            m0, 3           ; -f2
1319     pand             m0, m1
1320     pandn            m1, m7
1321     psubusb          m3, m0
1322     paddusb          m3, m1          ; p0+f2
1323
1324     pxor             m1, m1
1325     pxor             m0, m0
1326     pcmpgtb          m0, m6
1327     psubb            m1, m6
1328     psrlq            m6, 3           ; +f1
1329     psrlq            m1, 3           ; -f1
1330     pand             m1, m0
1331     pandn            m0, m6
1332     psubusb          m4, m0
1333     paddusb          m4, m1          ; q0-f1
1334
1335     ; filter_mbedge (m2-m5 = p1-q1; lim_res carries w)
1336 %if cpuflag(ssse3)
1337     mova             m7, [pb_1]
1338 %else
1339     mova             m7, [pw_63]
1340 %endif
1341 %ifdef m8
1342     SWAP              1, 8
1343 %else
1344     mova             m1, m_limres
1345 %endif
1346     pxor             m0, m0
1347     mova             m6, m1
1348     pcmpgtb          m0, m1         ; which are negative
1349 %if cpuflag(ssse3)
1350     punpcklbw        m6, m7         ; interleave with "1" for rounding
1351     punpckhbw        m1, m7
1352 %else
1353     punpcklbw        m6, m0         ; signed byte->word
1354     punpckhbw        m1, m0
1355 %endif
1356     mova      m_limsign, m0
1357 %if cpuflag(ssse3)
1358     mova             m7, [pb_27_63]
1359 %ifndef m8
1360     mova       m_limres, m1
1361 %endif
1362 %ifdef m10
1363     SWAP              0, 10         ; don't lose lim_sign copy
1364 %endif
1365     mova             m0, m7
1366     pmaddubsw        m7, m6
1367     SWAP              6, 7
1368     pmaddubsw        m0, m1
1369     SWAP              1, 0
1370 %ifdef m10
1371     SWAP              0, 10
1372 %else
1373     mova             m0, m_limsign
1374 %endif
1375 %else
1376     mova      m_maskres, m6         ; backup for later in filter
1377     mova       m_limres, m1
1378     pmullw          m6, [pw_27]
1379     pmullw          m1, [pw_27]
1380     paddw           m6, m7
1381     paddw           m1, m7
1382 %endif
1383     psraw           m6, 7
1384     psraw           m1, 7
1385     packsswb        m6, m1          ; a0
1386     pxor            m1, m1
1387     psubb           m1, m6
1388     pand            m1, m0          ; -a0
1389     pandn           m0, m6          ; +a0
1390 %if cpuflag(ssse3)
1391     mova            m6, [pb_18_63]  ; pipelining
1392 %endif
1393     psubusb         m3, m1
1394     paddusb         m4, m1
1395     paddusb         m3, m0          ; p0+a0
1396     psubusb         m4, m0          ; q0-a0
1397
1398 %if cpuflag(ssse3)
1399     SWAP             6, 7
1400 %ifdef m10
1401     SWAP             1, 10
1402 %else
1403     mova            m1, m_limres
1404 %endif
1405     mova            m0, m7
1406     pmaddubsw       m7, m6
1407     SWAP             6, 7
1408     pmaddubsw       m0, m1
1409     SWAP             1, 0
1410 %ifdef m10
1411     SWAP             0, 10
1412 %endif
1413     mova            m0, m_limsign
1414 %else
1415     mova            m6, m_maskres
1416     mova            m1, m_limres
1417     pmullw          m6, [pw_18]
1418     pmullw          m1, [pw_18]
1419     paddw           m6, m7
1420     paddw           m1, m7
1421 %endif
1422     mova            m0, m_limsign
1423     psraw           m6, 7
1424     psraw           m1, 7
1425     packsswb        m6, m1          ; a1
1426     pxor            m1, m1
1427     psubb           m1, m6
1428     pand            m1, m0          ; -a1
1429     pandn           m0, m6          ; +a1
1430 %if cpuflag(ssse3)
1431     mova            m6, [pb_9_63]
1432 %endif
1433     psubusb         m2, m1
1434     paddusb         m5, m1
1435     paddusb         m2, m0          ; p1+a1
1436     psubusb         m5, m0          ; q1-a1
1437
1438 %if cpuflag(ssse3)
1439     SWAP             6, 7
1440 %ifdef m10
1441     SWAP             1, 10
1442 %else
1443     mova            m1, m_limres
1444 %endif
1445     mova            m0, m7
1446     pmaddubsw       m7, m6
1447     SWAP             6, 7
1448     pmaddubsw       m0, m1
1449     SWAP             1, 0
1450 %else
1451 %ifdef m8
1452     SWAP             6, 12
1453     SWAP             1, 8
1454 %else
1455     mova            m6, m_maskres
1456     mova            m1, m_limres
1457 %endif
1458     pmullw          m6, [pw_9]
1459     pmullw          m1, [pw_9]
1460     paddw           m6, m7
1461     paddw           m1, m7
1462 %endif
1463 %ifdef m9
1464     SWAP             7, 9
1465 %else
1466     mova            m7, m_limsign
1467 %endif
1468     psraw           m6, 7
1469     psraw           m1, 7
1470     packsswb        m6, m1          ; a1
1471     pxor            m0, m0
1472     psubb           m0, m6
1473     pand            m0, m7          ; -a1
1474     pandn           m7, m6          ; +a1
1475 %ifdef m8
1476     SWAP             1, 13
1477     SWAP             6, 14
1478 %else
1479     mova            m1, m_p2backup
1480     mova            m6, m_q2backup
1481 %endif
1482     psubusb         m1, m0
1483     paddusb         m6, m0
1484     paddusb         m1, m7          ; p1+a1
1485     psubusb         m6, m7          ; q1-a1
1486
1487     ; store
1488 %ifidn %1, v
1489     movrow [dst2q+mstrideq*4], m1
1490     movrow [dst1q+mstrideq*2], m2
1491     movrow [dst1q+mstrideq  ], m3
1492     movrow     [dst1q], m4
1493     movrow     [dst2q], m5
1494     movrow [dst2q+ strideq  ], m6
1495 %if mmsize == 16 && %2 == 8
1496     add           dst8q, mstrideq
1497     movhps [dst8q+mstrideq*2], m1
1498     movhps [dst8q+mstrideq  ], m2
1499     movhps     [dst8q], m3
1500     add          dst8q, strideq
1501     movhps     [dst8q], m4
1502     movhps [dst8q+ strideq  ], m5
1503     movhps [dst8q+ strideq*2], m6
1504 %endif
1505 %else ; h
1506     inc          dst1q
1507     inc          dst2q
1508
1509     ; 4x8/16 transpose
1510     TRANSPOSE4x4B    1, 2, 3, 4, 0
1511     SBUTTERFLY      bw, 5, 6, 0
1512
1513 %if mmsize == 8 ; mmx/mmxext (h)
1514     WRITE_4x2D       1, 2, 3, 4, dst1q, dst2q, mstrideq, strideq
1515     add          dst1q, 4
1516     WRITE_2x4W      m5, m6, dst2q, dst1q, mstrideq, strideq
1517 %else ; sse2 (h)
1518     lea          dst8q, [dst8q+mstrideq+1]
1519     WRITE_4x4D       1, 2, 3, 4, dst1q, dst2q, dst8q, mstrideq, strideq, %2
1520     lea          dst1q, [dst2q+mstrideq+4]
1521     lea          dst8q, [dst8q+mstrideq+4]
1522 %if cpuflag(sse4)
1523     add          dst2q, 4
1524 %endif
1525     WRITE_8W        m5, dst2q, dst1q,  mstrideq, strideq
1526 %if cpuflag(sse4)
1527     lea          dst2q, [dst8q+ strideq  ]
1528 %endif
1529     WRITE_8W        m6, dst2q, dst8q, mstrideq, strideq
1530 %endif
1531 %endif
1532
1533 %if mmsize == 8
1534 %if %2 == 8 ; chroma
1535 %ifidn %1, h
1536     sub          dst1q, 5
1537 %endif
1538     cmp          dst1q, dst8q
1539     mov          dst1q, dst8q
1540     jnz .next8px
1541 %else
1542 %ifidn %1, h
1543     lea          dst1q, [dst1q+ strideq*8-5]
1544 %else ; v
1545     add          dst1q, 8
1546 %endif
1547     dec          cntrq
1548     jg .next8px
1549 %endif
1550     REP_RET
1551 %else ; mmsize == 16
1552     RET
1553 %endif
1554 %endmacro
1555
1556 %if ARCH_X86_32
1557 INIT_MMX mmx
1558 MBEDGE_LOOPFILTER v, 16
1559 MBEDGE_LOOPFILTER h, 16
1560 MBEDGE_LOOPFILTER v,  8
1561 MBEDGE_LOOPFILTER h,  8
1562
1563 INIT_MMX mmxext
1564 MBEDGE_LOOPFILTER v, 16
1565 MBEDGE_LOOPFILTER h, 16
1566 MBEDGE_LOOPFILTER v,  8
1567 MBEDGE_LOOPFILTER h,  8
1568 %endif
1569
1570 INIT_XMM sse2
1571 MBEDGE_LOOPFILTER v, 16
1572 MBEDGE_LOOPFILTER h, 16
1573 MBEDGE_LOOPFILTER v,  8
1574 MBEDGE_LOOPFILTER h,  8
1575
1576 INIT_XMM ssse3
1577 MBEDGE_LOOPFILTER v, 16
1578 MBEDGE_LOOPFILTER h, 16
1579 MBEDGE_LOOPFILTER v,  8
1580 MBEDGE_LOOPFILTER h,  8
1581
1582 INIT_XMM sse4
1583 MBEDGE_LOOPFILTER h, 16
1584 MBEDGE_LOOPFILTER h,  8