Upstream version 10.39.225.0
[platform/framework/web/crosswalk.git] / src / third_party / ffmpeg / libavfilter / x86 / vf_idet.asm
1 ;*****************************************************************************
2 ;* x86-optimized functions for idet filter
3 ;*
4 ;* Copyright (C) 2014 Pascal Massimino (pascal.massimino@gmail.com)
5 ;* Copyright (c) 2014 Neil Birkbeck (birkbeck@google.com)
6 ;*
7 ;* This file is part of FFmpeg.
8 ;*
9 ;* FFmpeg is free software; you can redistribute it and/or
10 ;* modify it under the terms of the GNU Lesser General Public
11 ;* License as published by the Free Software Foundation; either
12 ;* version 2.1 of the License, or (at your option) any later version.
13 ;*
14 ;* FFmpeg is distributed in the hope that it will be useful,
15 ;* but WITHOUT ANY WARRANTY; without even the implied warranty of
16 ;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
17 ;* Lesser General Public License for more details.
18 ;*
19 ;* You should have received a copy of the GNU Lesser General Public
20 ;* License along with FFmpeg; if not, write to the Free Software
21 ;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
22 ;******************************************************************************
23
24 %include "libavutil/x86/x86util.asm"
25
26 SECTION_TEXT
27
28 ; Implementation that does 8-bytes at a time using single-word operations.
29 %macro IDET_FILTER_LINE 1
30 INIT_MMX %1
31 cglobal idet_filter_line, 4, 5, 0, a, b, c, width, index
32     xor       indexq, indexq
33 %define   m_zero m2
34 %define   m_sum  m5
35     pxor      m_sum, m_sum
36     pxor      m_zero, m_zero
37
38 .loop:
39     movu      m0, [aq + indexq*1]
40     punpckhbw m1, m0, m_zero
41     punpcklbw m0, m_zero
42
43     movu      m3, [cq + indexq*1]
44     punpckhbw m4, m3, m_zero
45     punpcklbw m3, m_zero
46
47     paddsw    m1, m4
48     paddsw    m0, m3
49
50     movu      m3, [bq + indexq*1]
51     punpckhbw m4, m3, m_zero
52     punpcklbw m3, m_zero
53
54     paddw     m4, m4
55     paddw     m3, m3
56     psubsw    m1, m4
57     psubsw    m0, m3
58
59     ABS2      m1, m0, m4, m3
60
61     paddw     m0, m1
62     punpckhwd m1, m0, m_zero
63     punpcklwd m0, m_zero
64
65     paddd     m0, m1
66     paddd     m_sum, m0
67
68     add       indexq, 0x8
69     CMP       widthd, indexd
70     jg        .loop
71
72     HADDD     m_sum, m0
73     movd      eax, m_sum
74     RET
75 %endmacro
76
77 %if ARCH_X86_32
78 IDET_FILTER_LINE mmxext
79 IDET_FILTER_LINE mmx
80 %endif
81
82 ;******************************************************************************
83 ; 16bit implementation that does 4/8-pixels at a time
84
85 %macro PABS_DIFF_WD 3    ; a, b, junk   , output=a
86   psubusw   %3, %2, %1
87   psubusw   %1, %2
88   por       %1, %3
89
90   mova      %2, %1
91   punpcklwd %1, m_zero
92   punpckhwd %2, m_zero
93   paddd     %1, %2
94 %endmacro
95
96 %macro IDET_FILTER_LINE_16BIT 1   ; %1=increment (4 or 8 words)
97 cglobal idet_filter_line_16bit, 4, 5, 8, a, b, c, width, index
98     xor       indexq, indexq
99 %define m_zero m1
100 %define m_sum  m0
101     pxor      m_sum, m_sum
102     pxor      m_zero, m_zero
103
104 .loop_16bit:
105     movu      m2, [bq + indexq * 2]  ; B
106     movu      m3, [aq + indexq * 2]  ; A
107     mova      m6, m2
108     psubusw   m5, m2, m3             ; ba
109
110     movu      m4, [cq + indexq * 2]  ; C
111     add       indexq, %1
112     psubusw   m3, m2                 ; ab
113     CMP       indexd, widthd
114
115     psubusw   m6, m4                 ; bc
116     psubusw   m4, m2                 ; cb
117
118     PABS_DIFF_WD   m3, m6, m7        ; |ab - bc|
119     PABS_DIFF_WD   m5, m4, m7        ; |ba - cb|
120     paddd          m_sum, m3
121     paddd          m_sum, m5
122     jl        .loop_16bit
123
124     HADDD     m_sum, m2
125     movd      eax, m_sum
126     RET
127 %endmacro
128
129 INIT_XMM sse2
130 IDET_FILTER_LINE_16BIT 8
131 %if ARCH_X86_32
132 INIT_MMX mmx
133 IDET_FILTER_LINE_16BIT 4
134 %endif
135
136 ;******************************************************************************
137 ; SSE2 8-bit implementation that does 16-bytes at a time:
138
139 INIT_XMM sse2
140 cglobal idet_filter_line, 4, 6, 7, a, b, c, width, index, total
141     xor       indexq, indexq
142     pxor      m0, m0
143     pxor      m1, m1
144
145 .sse2_loop:
146     movu      m2, [bq + indexq*1]  ; B
147     movu      m3, [aq + indexq*1]  ; A
148     mova      m6, m2
149     mova      m4, m3
150     psubusb   m5, m2, m3           ; ba
151
152     movu      m3, [cq + indexq*1]  ; C
153     add       indexq, 0x10
154     psubusb   m4, m2               ; ab
155     CMP       indexd, widthd
156
157     psubusb   m6, m3               ; bc
158     psubusb   m3, m2               ; cb
159
160     psadbw    m4, m6               ; |ab - bc|
161     paddq     m0, m4
162     psadbw    m5, m3               ; |ba - cb|
163     paddq     m1, m5
164     jl       .sse2_loop
165
166     paddq     m0, m1
167     movhlps   m1, m0
168     paddq     m0, m1
169     movd      eax, m0
170     RET