x86: float_dsp: add SSE version of vector_fmul_scalar()
authorJustin Ruggles <justin.ruggles@gmail.com>
Sat, 22 Sep 2012 22:41:25 +0000 (18:41 -0400)
committerJustin Ruggles <justin.ruggles@gmail.com>
Mon, 26 Nov 2012 16:30:19 +0000 (11:30 -0500)
libavutil/x86/float_dsp.asm
libavutil/x86/float_dsp_init.c

index a8857b937c1adb3fed5455459b41697bab51eebf..317df9c3c145fd11c8a52efdeaf84d3469f0a8a7 100644 (file)
@@ -85,3 +85,32 @@ INIT_XMM sse
 VECTOR_FMAC_SCALAR
 INIT_YMM avx
 VECTOR_FMAC_SCALAR
+
+;------------------------------------------------------------------------------
+; void ff_vector_fmul_scalar(float *dst, const float *src, float mul, int len)
+;------------------------------------------------------------------------------
+
+%macro VECTOR_FMUL_SCALAR 0
+%if UNIX64
+cglobal vector_fmul_scalar, 3,3,2, dst, src, len
+%else
+cglobal vector_fmul_scalar, 4,4,3, dst, src, mul, len
+%endif
+%if ARCH_X86_32
+    movss    m0, mulm
+%elif WIN64
+    SWAP 0, 2
+%endif
+    shufps   m0, m0, 0
+    lea    lenq, [lend*4-mmsize]
+.loop:
+    mova     m1, [srcq+lenq]
+    mulps    m1, m0
+    mova  [dstq+lenq], m1
+    sub    lenq, mmsize
+    jge .loop
+    REP_RET
+%endmacro
+
+INIT_XMM sse
+VECTOR_FMUL_SCALAR
index d1b0b8c622fefcf41fdc38eb32d80107da266c3a..d14ec6a377097cfaa2d9a8d6c71ee49ad4ac71a5 100644 (file)
@@ -32,6 +32,9 @@ extern void ff_vector_fmac_scalar_sse(float *dst, const float *src, float mul,
 extern void ff_vector_fmac_scalar_avx(float *dst, const float *src, float mul,
                                       int len);
 
+extern void ff_vector_fmul_scalar_sse(float *dst, const float *src, float mul,
+                                      int len);
+
 void ff_float_dsp_init_x86(AVFloatDSPContext *fdsp)
 {
     int mm_flags = av_get_cpu_flags();
@@ -39,6 +42,7 @@ void ff_float_dsp_init_x86(AVFloatDSPContext *fdsp)
     if (EXTERNAL_SSE(mm_flags)) {
         fdsp->vector_fmul = ff_vector_fmul_sse;
         fdsp->vector_fmac_scalar = ff_vector_fmac_scalar_sse;
+        fdsp->vector_fmul_scalar = ff_vector_fmul_scalar_sse;
     }
     if (EXTERNAL_AVX(mm_flags)) {
         fdsp->vector_fmul = ff_vector_fmul_avx;