x86: Replace all sse instructions with vex equivilent in avx+ files
authorNoah Goldstein <goldstein.w.n@gmail.com>
Mon, 20 Jun 2022 20:02:10 +0000 (13:02 -0700)
committerNoah Goldstein <goldstein.w.n@gmail.com>
Thu, 23 Jun 2022 02:42:17 +0000 (19:42 -0700)
Most of these don't really matter as there was no dirty upper state
but we should generally avoid stray sse when its not needed.

The one case that really matters is in svml_d_tanh4_core_avx2.S:

blendvps %xmm0, %xmm8, %xmm7

When there was a dirty upper state.

Tested on x86_64-linux

75 files changed:
sysdeps/x86_64/fpu/multiarch/svml_d_acos4_core_avx2.S
sysdeps/x86_64/fpu/multiarch/svml_d_acos8_core_avx512.S
sysdeps/x86_64/fpu/multiarch/svml_d_acosh4_core_avx2.S
sysdeps/x86_64/fpu/multiarch/svml_d_acosh8_core_avx512.S
sysdeps/x86_64/fpu/multiarch/svml_d_asin4_core_avx2.S
sysdeps/x86_64/fpu/multiarch/svml_d_asin8_core_avx512.S
sysdeps/x86_64/fpu/multiarch/svml_d_asinh4_core_avx2.S
sysdeps/x86_64/fpu/multiarch/svml_d_asinh8_core_avx512.S
sysdeps/x86_64/fpu/multiarch/svml_d_atan24_core_avx2.S
sysdeps/x86_64/fpu/multiarch/svml_d_atan28_core_avx512.S
sysdeps/x86_64/fpu/multiarch/svml_d_atanh4_core_avx2.S
sysdeps/x86_64/fpu/multiarch/svml_d_atanh8_core_avx512.S
sysdeps/x86_64/fpu/multiarch/svml_d_cbrt4_core_avx2.S
sysdeps/x86_64/fpu/multiarch/svml_d_cosh4_core_avx2.S
sysdeps/x86_64/fpu/multiarch/svml_d_cosh8_core_avx512.S
sysdeps/x86_64/fpu/multiarch/svml_d_erfc4_core_avx2.S
sysdeps/x86_64/fpu/multiarch/svml_d_erfc8_core_avx512.S
sysdeps/x86_64/fpu/multiarch/svml_d_exp104_core_avx2.S
sysdeps/x86_64/fpu/multiarch/svml_d_exp108_core_avx512.S
sysdeps/x86_64/fpu/multiarch/svml_d_exp24_core_avx2.S
sysdeps/x86_64/fpu/multiarch/svml_d_exp28_core_avx512.S
sysdeps/x86_64/fpu/multiarch/svml_d_expm14_core_avx2.S
sysdeps/x86_64/fpu/multiarch/svml_d_expm18_core_avx512.S
sysdeps/x86_64/fpu/multiarch/svml_d_hypot4_core_avx2.S
sysdeps/x86_64/fpu/multiarch/svml_d_hypot8_core_avx512.S
sysdeps/x86_64/fpu/multiarch/svml_d_log104_core_avx2.S
sysdeps/x86_64/fpu/multiarch/svml_d_log108_core_avx512.S
sysdeps/x86_64/fpu/multiarch/svml_d_log1p4_core_avx2.S
sysdeps/x86_64/fpu/multiarch/svml_d_log1p8_core_avx512.S
sysdeps/x86_64/fpu/multiarch/svml_d_log24_core_avx2.S
sysdeps/x86_64/fpu/multiarch/svml_d_log28_core_avx512.S
sysdeps/x86_64/fpu/multiarch/svml_d_sinh4_core_avx2.S
sysdeps/x86_64/fpu/multiarch/svml_d_sinh8_core_avx512.S
sysdeps/x86_64/fpu/multiarch/svml_d_tan4_core_avx2.S
sysdeps/x86_64/fpu/multiarch/svml_d_tan8_core_avx512.S
sysdeps/x86_64/fpu/multiarch/svml_d_tanh4_core_avx2.S
sysdeps/x86_64/fpu/multiarch/svml_d_tanh8_core_avx512.S
sysdeps/x86_64/fpu/multiarch/svml_s_acosf16_core_avx512.S
sysdeps/x86_64/fpu/multiarch/svml_s_acosf8_core_avx2.S
sysdeps/x86_64/fpu/multiarch/svml_s_acoshf16_core_avx512.S
sysdeps/x86_64/fpu/multiarch/svml_s_acoshf8_core_avx2.S
sysdeps/x86_64/fpu/multiarch/svml_s_asinf16_core_avx512.S
sysdeps/x86_64/fpu/multiarch/svml_s_asinf8_core_avx2.S
sysdeps/x86_64/fpu/multiarch/svml_s_asinhf16_core_avx512.S
sysdeps/x86_64/fpu/multiarch/svml_s_asinhf8_core_avx2.S
sysdeps/x86_64/fpu/multiarch/svml_s_atan2f16_core_avx512.S
sysdeps/x86_64/fpu/multiarch/svml_s_atan2f8_core_avx2.S
sysdeps/x86_64/fpu/multiarch/svml_s_atanhf16_core_avx512.S
sysdeps/x86_64/fpu/multiarch/svml_s_atanhf8_core_avx2.S
sysdeps/x86_64/fpu/multiarch/svml_s_cbrtf8_core_avx2.S
sysdeps/x86_64/fpu/multiarch/svml_s_coshf16_core_avx512.S
sysdeps/x86_64/fpu/multiarch/svml_s_coshf8_core_avx2.S
sysdeps/x86_64/fpu/multiarch/svml_s_erfcf16_core_avx512.S
sysdeps/x86_64/fpu/multiarch/svml_s_erfcf8_core_avx2.S
sysdeps/x86_64/fpu/multiarch/svml_s_exp10f16_core_avx512.S
sysdeps/x86_64/fpu/multiarch/svml_s_exp10f8_core_avx2.S
sysdeps/x86_64/fpu/multiarch/svml_s_exp2f16_core_avx512.S
sysdeps/x86_64/fpu/multiarch/svml_s_exp2f8_core_avx2.S
sysdeps/x86_64/fpu/multiarch/svml_s_expm1f16_core_avx512.S
sysdeps/x86_64/fpu/multiarch/svml_s_expm1f8_core_avx2.S
sysdeps/x86_64/fpu/multiarch/svml_s_hypotf16_core_avx512.S
sysdeps/x86_64/fpu/multiarch/svml_s_hypotf8_core_avx2.S
sysdeps/x86_64/fpu/multiarch/svml_s_log10f16_core_avx512.S
sysdeps/x86_64/fpu/multiarch/svml_s_log10f8_core_avx2.S
sysdeps/x86_64/fpu/multiarch/svml_s_log1pf16_core_avx512.S
sysdeps/x86_64/fpu/multiarch/svml_s_log1pf8_core_avx2.S
sysdeps/x86_64/fpu/multiarch/svml_s_log2f16_core_avx512.S
sysdeps/x86_64/fpu/multiarch/svml_s_log2f8_core_avx2.S
sysdeps/x86_64/fpu/multiarch/svml_s_sinhf16_core_avx512.S
sysdeps/x86_64/fpu/multiarch/svml_s_sinhf8_core_avx2.S
sysdeps/x86_64/fpu/multiarch/svml_s_tanf16_core_avx512.S
sysdeps/x86_64/fpu/multiarch/svml_s_tanf8_core_avx2.S
sysdeps/x86_64/fpu/multiarch/svml_s_tanhf16_core_avx512.S
sysdeps/x86_64/fpu/multiarch/svml_s_tanhf8_core_avx2.S
sysdeps/x86_64/multiarch/strrchr-avx2.S

index e19bddd..73025e8 100644 (file)
@@ -210,11 +210,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movsd   32(%rsp, %r14, 8), %xmm0
+       vmovsd  32(%rsp, %r14, 8), %xmm0
        call    acos@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movsd   %xmm0, 64(%rsp, %r14, 8)
+       vmovsd  %xmm0, 64(%rsp, %r14, 8)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index f4c72c3..b8cc6dd 100644 (file)
@@ -232,11 +232,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movsd   64(%rsp, %r14, 8), %xmm0
+       vmovsd  64(%rsp, %r14, 8), %xmm0
        call    acos@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movsd   %xmm0, 128(%rsp, %r14, 8)
+       vmovsd  %xmm0, 128(%rsp, %r14, 8)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index 5d0b23b..126110c 100644 (file)
@@ -372,11 +372,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movsd   32(%rsp, %r14, 8), %xmm0
+       vmovsd  32(%rsp, %r14, 8), %xmm0
        call    acosh@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movsd   %xmm0, 64(%rsp, %r14, 8)
+       vmovsd  %xmm0, 64(%rsp, %r14, 8)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index b9a1131..db0ef3b 100644 (file)
@@ -317,11 +317,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movsd   64(%rsp, %r14, 8), %xmm0
+       vmovsd  64(%rsp, %r14, 8), %xmm0
        call    acosh@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movsd   %xmm0, 128(%rsp, %r14, 8)
+       vmovsd  %xmm0, 128(%rsp, %r14, 8)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index ba96089..612a45d 100644 (file)
@@ -202,11 +202,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movsd   32(%rsp, %r14, 8), %xmm0
+       vmovsd  32(%rsp, %r14, 8), %xmm0
        call    asin@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movsd   %xmm0, 64(%rsp, %r14, 8)
+       vmovsd  %xmm0, 64(%rsp, %r14, 8)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index 0f5b773..e7b41ab 100644 (file)
@@ -224,11 +224,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movsd   64(%rsp, %r14, 8), %xmm0
+       vmovsd  64(%rsp, %r14, 8), %xmm0
        call    asin@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movsd   %xmm0, 128(%rsp, %r14, 8)
+       vmovsd  %xmm0, 128(%rsp, %r14, 8)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index 131b716..1fcbb24 100644 (file)
@@ -429,11 +429,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movsd   32(%rsp, %r14, 8), %xmm0
+       vmovsd  32(%rsp, %r14, 8), %xmm0
        call    asinh@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movsd   %xmm0, 64(%rsp, %r14, 8)
+       vmovsd  %xmm0, 64(%rsp, %r14, 8)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index 5bdc685..8445fc8 100644 (file)
@@ -343,11 +343,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movsd   64(%rsp, %r14, 8), %xmm0
+       vmovsd  64(%rsp, %r14, 8), %xmm0
        call    asinh@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movsd   %xmm0, 128(%rsp, %r14, 8)
+       vmovsd  %xmm0, 128(%rsp, %r14, 8)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index 1b60157..a45cae7 100644 (file)
@@ -277,12 +277,12 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movsd   32(%rsp, %r14, 8), %xmm0
-       movsd   64(%rsp, %r14, 8), %xmm1
+       vmovsd  32(%rsp, %r14, 8), %xmm0
+       vmovsd  64(%rsp, %r14, 8), %xmm1
        call    atan2@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movsd   %xmm0, 96(%rsp, %r14, 8)
+       vmovsd  %xmm0, 96(%rsp, %r14, 8)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index ef95810..c3b0f79 100644 (file)
@@ -295,12 +295,12 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movsd   64(%rsp, %r14, 8), %xmm0
-       movsd   128(%rsp, %r14, 8), %xmm1
+       vmovsd  64(%rsp, %r14, 8), %xmm0
+       vmovsd  128(%rsp, %r14, 8), %xmm1
        call    atan2@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movsd   %xmm0, 192(%rsp, %r14, 8)
+       vmovsd  %xmm0, 192(%rsp, %r14, 8)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index b5cbfd2..c9c41ef 100644 (file)
@@ -339,11 +339,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movsd   32(%rsp, %r14, 8), %xmm0
+       vmovsd  32(%rsp, %r14, 8), %xmm0
        call    atanh@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movsd   %xmm0, 64(%rsp, %r14, 8)
+       vmovsd  %xmm0, 64(%rsp, %r14, 8)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index 3193c02..de4edb3 100644 (file)
@@ -274,11 +274,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movsd   64(%rsp, %r14, 8), %xmm0
+       vmovsd  64(%rsp, %r14, 8), %xmm0
        call    atanh@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movsd   %xmm0, 128(%rsp, %r14, 8)
+       vmovsd  %xmm0, 128(%rsp, %r14, 8)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index 96ecbe0..71a25f3 100644 (file)
@@ -262,11 +262,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movsd   32(%rsp, %r14, 8), %xmm0
+       vmovsd  32(%rsp, %r14, 8), %xmm0
        call    cbrt@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movsd   %xmm0, 64(%rsp, %r14, 8)
+       vmovsd  %xmm0, 64(%rsp, %r14, 8)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index 25df252..a3d9104 100644 (file)
@@ -282,11 +282,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movsd   32(%rsp, %r14, 8), %xmm0
+       vmovsd  32(%rsp, %r14, 8), %xmm0
        call    cosh@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movsd   %xmm0, 64(%rsp, %r14, 8)
+       vmovsd  %xmm0, 64(%rsp, %r14, 8)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index 066bbc7..4ff0e03 100644 (file)
@@ -231,11 +231,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movsd   64(%rsp, %r14, 8), %xmm0
+       vmovsd  64(%rsp, %r14, 8), %xmm0
        call    cosh@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movsd   %xmm0, 128(%rsp, %r14, 8)
+       vmovsd  %xmm0, 128(%rsp, %r14, 8)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index c832b65..6efd2e9 100644 (file)
@@ -258,11 +258,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movsd   32(%rsp, %r14, 8), %xmm0
+       vmovsd  32(%rsp, %r14, 8), %xmm0
        call    erfc@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movsd   %xmm0, 64(%rsp, %r14, 8)
+       vmovsd  %xmm0, 64(%rsp, %r14, 8)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index 7722881..42bdfe6 100644 (file)
@@ -261,11 +261,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movsd   64(%rsp, %r14, 8), %xmm0
+       vmovsd  64(%rsp, %r14, 8), %xmm0
        call    erfc@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movsd   %xmm0, 128(%rsp, %r14, 8)
+       vmovsd  %xmm0, 128(%rsp, %r14, 8)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index 7271bcc..f519bcc 100644 (file)
@@ -231,11 +231,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movsd   32(%rsp, %r14, 8), %xmm0
+       vmovsd  32(%rsp, %r14, 8), %xmm0
        call    exp10@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movsd   %xmm0, 64(%rsp, %r14, 8)
+       vmovsd  %xmm0, 64(%rsp, %r14, 8)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index 40b01c3..3f0c670 100644 (file)
@@ -191,11 +191,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movsd   64(%rsp, %r14, 8), %xmm0
+       vmovsd  64(%rsp, %r14, 8), %xmm0
        call    exp10@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movsd   %xmm0, 128(%rsp, %r14, 8)
+       vmovsd  %xmm0, 128(%rsp, %r14, 8)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index ced774e..afa00a3 100644 (file)
@@ -223,11 +223,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movsd   32(%rsp, %r14, 8), %xmm0
+       vmovsd  32(%rsp, %r14, 8), %xmm0
        call    exp2@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movsd   %xmm0, 64(%rsp, %r14, 8)
+       vmovsd  %xmm0, 64(%rsp, %r14, 8)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index 7a85fd8..eee785d 100644 (file)
@@ -227,11 +227,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movsd   64(%rsp, %r14, 8), %xmm0
+       vmovsd  64(%rsp, %r14, 8), %xmm0
        call    exp2@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movsd   %xmm0, 128(%rsp, %r14, 8)
+       vmovsd  %xmm0, 128(%rsp, %r14, 8)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index 590341c..4a32027 100644 (file)
@@ -205,11 +205,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movsd   32(%rsp, %r14, 8), %xmm0
+       vmovsd  32(%rsp, %r14, 8), %xmm0
        call    expm1@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movsd   %xmm0, 64(%rsp, %r14, 8)
+       vmovsd  %xmm0, 64(%rsp, %r14, 8)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index efae1f8..0fa17f3 100644 (file)
@@ -211,11 +211,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movsd   64(%rsp, %r14, 8), %xmm0
+       vmovsd  64(%rsp, %r14, 8), %xmm0
        call    expm1@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movsd   %xmm0, 128(%rsp, %r14, 8)
+       vmovsd  %xmm0, 128(%rsp, %r14, 8)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index ae5738c..5c693d1 100644 (file)
@@ -231,12 +231,12 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movsd   32(%rsp, %r14, 8), %xmm0
-       movsd   64(%rsp, %r14, 8), %xmm1
+       vmovsd  32(%rsp, %r14, 8), %xmm0
+       vmovsd  64(%rsp, %r14, 8), %xmm1
        call    hypot@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movsd   %xmm0, 96(%rsp, %r14, 8)
+       vmovsd  %xmm0, 96(%rsp, %r14, 8)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index 0c404fd..a392252 100644 (file)
@@ -194,12 +194,12 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movsd   64(%rsp, %r14, 8), %xmm0
-       movsd   128(%rsp, %r14, 8), %xmm1
+       vmovsd  64(%rsp, %r14, 8), %xmm0
+       vmovsd  128(%rsp, %r14, 8), %xmm1
        call    hypot@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movsd   %xmm0, 192(%rsp, %r14, 8)
+       vmovsd  %xmm0, 192(%rsp, %r14, 8)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index 2461c6a..9bf45a6 100644 (file)
@@ -225,11 +225,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movsd   32(%rsp, %r14, 8), %xmm0
+       vmovsd  32(%rsp, %r14, 8), %xmm0
        call    log10@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movsd   %xmm0, 64(%rsp, %r14, 8)
+       vmovsd  %xmm0, 64(%rsp, %r14, 8)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index 5d129ef..101618c 100644 (file)
@@ -207,11 +207,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movsd   64(%rsp, %r14, 8), %xmm0
+       vmovsd  64(%rsp, %r14, 8), %xmm0
        call    log10@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movsd   %xmm0, 128(%rsp, %r14, 8)
+       vmovsd  %xmm0, 128(%rsp, %r14, 8)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index 1323579..39ec002 100644 (file)
@@ -263,11 +263,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movsd   32(%rsp, %r14, 8), %xmm0
+       vmovsd  32(%rsp, %r14, 8), %xmm0
        call    log1p@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movsd   %xmm0, 64(%rsp, %r14, 8)
+       vmovsd  %xmm0, 64(%rsp, %r14, 8)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index dd55b5d..3033fcb 100644 (file)
@@ -225,11 +225,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movsd   64(%rsp, %r14, 8), %xmm0
+       vmovsd  64(%rsp, %r14, 8), %xmm0
        call    log1p@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movsd   %xmm0, 128(%rsp, %r14, 8)
+       vmovsd  %xmm0, 128(%rsp, %r14, 8)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index 25d2eda..84bdb20 100644 (file)
@@ -223,11 +223,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movsd   32(%rsp, %r14, 8), %xmm0
+       vmovsd  32(%rsp, %r14, 8), %xmm0
        call    log2@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movsd   %xmm0, 64(%rsp, %r14, 8)
+       vmovsd  %xmm0, 64(%rsp, %r14, 8)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index bcb6736..b3e9bb3 100644 (file)
@@ -205,11 +205,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movsd   64(%rsp, %r14, 8), %xmm0
+       vmovsd  64(%rsp, %r14, 8), %xmm0
        call    log2@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movsd   %xmm0, 128(%rsp, %r14, 8)
+       vmovsd  %xmm0, 128(%rsp, %r14, 8)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index ae16600..ad2a06a 100644 (file)
@@ -280,11 +280,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movsd   32(%rsp, %r14, 8), %xmm0
+       vmovsd  32(%rsp, %r14, 8), %xmm0
        call    sinh@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movsd   %xmm0, 64(%rsp, %r14, 8)
+       vmovsd  %xmm0, 64(%rsp, %r14, 8)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index 075665d..7ca915e 100644 (file)
@@ -271,11 +271,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movsd   64(%rsp, %r14, 8), %xmm0
+       vmovsd  64(%rsp, %r14, 8), %xmm0
        call    sinh@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movsd   %xmm0, 128(%rsp, %r14, 8)
+       vmovsd  %xmm0, 128(%rsp, %r14, 8)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index 01c8673..f26daf3 100644 (file)
@@ -267,11 +267,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movsd   32(%rsp, %r14, 8), %xmm0
+       vmovsd  32(%rsp, %r14, 8), %xmm0
        call    tan@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movsd   %xmm0, 64(%rsp, %r14, 8)
+       vmovsd  %xmm0, 64(%rsp, %r14, 8)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index 3764790..0c90328 100644 (file)
@@ -239,11 +239,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movsd   64(%rsp, %r14, 8), %xmm0
+       vmovsd  64(%rsp, %r14, 8), %xmm0
        call    tan@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movsd   %xmm0, 128(%rsp, %r14, 8)
+       vmovsd  %xmm0, 128(%rsp, %r14, 8)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index 7ddf145..ea41d32 100644 (file)
@@ -110,7 +110,7 @@ ENTRY(_ZGVdN4v_tanh_avx2)
        vpcmpgtd %xmm11, %xmm9, %xmm10
        vpcmpgtd %xmm8, %xmm9, %xmm0
        vpand   %xmm10, %xmm9, %xmm7
-       blendvps %xmm0, %xmm8, %xmm7
+       vblendvps %xmm0, %xmm8, %xmm7, %xmm7
 
        /*
         * VSHRIMM( I, iIndex, = iIndex, (17 - 4) );
@@ -272,11 +272,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movsd   32(%rsp, %r14, 8), %xmm0
+       vmovsd  32(%rsp, %r14, 8), %xmm0
        call    tanh@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movsd   %xmm0, 64(%rsp, %r14, 8)
+       vmovsd  %xmm0, 64(%rsp, %r14, 8)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index 82c0119..c995401 100644 (file)
@@ -286,11 +286,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movsd   64(%rsp, %r14, 8), %xmm0
+       vmovsd  64(%rsp, %r14, 8), %xmm0
        call    tanh@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movsd   %xmm0, 128(%rsp, %r14, 8)
+       vmovsd  %xmm0, 128(%rsp, %r14, 8)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index 26fef1f..fd84977 100644 (file)
@@ -205,11 +205,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movss   64(%rsp, %r14, 4), %xmm0
+       vmovss  64(%rsp, %r14, 4), %xmm0
        call    acosf@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movss   %xmm0, 128(%rsp, %r14, 4)
+       vmovss  %xmm0, 128(%rsp, %r14, 4)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index bf28a5d..078fe5a 100644 (file)
@@ -198,11 +198,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movss   32(%rsp, %r14, 4), %xmm0
+       vmovss  32(%rsp, %r14, 4), %xmm0
        call    acosf@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movss   %xmm0, 64(%rsp, %r14, 4)
+       vmovss  %xmm0, 64(%rsp, %r14, 4)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index 3f44e75..65026e6 100644 (file)
@@ -290,11 +290,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movss   64(%rsp, %r14, 4), %xmm0
+       vmovss  64(%rsp, %r14, 4), %xmm0
        call    acoshf@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movss   %xmm0, 128(%rsp, %r14, 4)
+       vmovss  %xmm0, 128(%rsp, %r14, 4)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index 3a70fc1..489dac0 100644 (file)
@@ -286,11 +286,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movss   32(%rsp, %r14, 4), %xmm0
+       vmovss  32(%rsp, %r14, 4), %xmm0
        call    acoshf@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movss   %xmm0, 64(%rsp, %r14, 4)
+       vmovss  %xmm0, 64(%rsp, %r14, 4)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index 4e9984d..2accef7 100644 (file)
@@ -198,11 +198,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movss   64(%rsp, %r14, 4), %xmm0
+       vmovss  64(%rsp, %r14, 4), %xmm0
        call    asinf@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movss   %xmm0, 128(%rsp, %r14, 4)
+       vmovss  %xmm0, 128(%rsp, %r14, 4)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index 59bea9d..257c8da 100644 (file)
@@ -187,11 +187,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movss   32(%rsp, %r14, 4), %xmm0
+       vmovss  32(%rsp, %r14, 4), %xmm0
        call    asinf@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movss   %xmm0, 64(%rsp, %r14, 4)
+       vmovss  %xmm0, 64(%rsp, %r14, 4)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index 6b569ec..a0c2792 100644 (file)
@@ -313,11 +313,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movss   64(%rsp, %r14, 4), %xmm0
+       vmovss  64(%rsp, %r14, 4), %xmm0
        call    asinhf@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movss   %xmm0, 128(%rsp, %r14, 4)
+       vmovss  %xmm0, 128(%rsp, %r14, 4)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index 794030a..d6f6c3d 100644 (file)
@@ -361,11 +361,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movss   32(%rsp, %r14, 4), %xmm0
+       vmovss  32(%rsp, %r14, 4), %xmm0
        call    asinhf@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movss   %xmm0, 64(%rsp, %r14, 4)
+       vmovss  %xmm0, 64(%rsp, %r14, 4)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index 56aa5bb..15ffa4b 100644 (file)
@@ -257,12 +257,12 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movss   64(%rsp, %r14, 4), %xmm0
-       movss   128(%rsp, %r14, 4), %xmm1
+       vmovss  64(%rsp, %r14, 4), %xmm0
+       vmovss  128(%rsp, %r14, 4), %xmm1
        call    atan2f@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movss   %xmm0, 192(%rsp, %r14, 4)
+       vmovss  %xmm0, 192(%rsp, %r14, 4)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index 29ebbb6..08b18c3 100644 (file)
@@ -238,12 +238,12 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movss   32(%rsp, %r14, 4), %xmm0
-       movss   64(%rsp, %r14, 4), %xmm1
+       vmovss  32(%rsp, %r14, 4), %xmm0
+       vmovss  64(%rsp, %r14, 4), %xmm1
        call    atan2f@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movss   %xmm0, 96(%rsp, %r14, 4)
+       vmovss  %xmm0, 96(%rsp, %r14, 4)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index f42462c..94186a1 100644 (file)
@@ -222,13 +222,13 @@ L(SPECIAL_VALUES_LOOP):
        tzcntl  %ebx, %ebp
 
        /* Scalar math fucntion call to process special input.  */
-       movss   64(%rsp, %rbp, 4), %xmm0
+       vmovss  64(%rsp, %rbp, 4), %xmm0
        call    atanhf@PLT
 
        /* No good way to avoid the store-forwarding fault this will cause on
           return. `lfence` avoids the SF fault but at greater cost as it
           serialized stack/callee save restoration.  */
-       movss   %xmm0, (%rsp, %rbp, 4)
+       vmovss  %xmm0, (%rsp, %rbp, 4)
 
        blsrl   %ebx, %ebx
        jnz     L(SPECIAL_VALUES_LOOP)
index 43eb423..49ffd7a 100644 (file)
@@ -231,13 +231,13 @@ L(SPECIAL_VALUES_LOOP):
        tzcntl  %ebx, %ebp
 
        /* Scalar math fucntion call to process special input.  */
-       movss   32(%rsp, %rbp, 4), %xmm0
+       vmovss  32(%rsp, %rbp, 4), %xmm0
        call    atanhf@PLT
 
        /* No good way to avoid the store-forwarding fault this will cause on
           return. `lfence` avoids the SF fault but at greater cost as it
           serialized stack/callee save restoration.  */
-       movss   %xmm0, (%rsp, %rbp, 4)
+       vmovss  %xmm0, (%rsp, %rbp, 4)
 
        blsrl   %ebx, %ebx
        jnz     L(SPECIAL_VALUES_LOOP)
index d24d361..14b58c1 100644 (file)
@@ -304,11 +304,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movss   32(%rsp, %r14, 4), %xmm0
+       vmovss  32(%rsp, %r14, 4), %xmm0
        call    cbrtf@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movss   %xmm0, 64(%rsp, %r14, 4)
+       vmovss  %xmm0, 64(%rsp, %r14, 4)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index 6b740bf..d1a5ddf 100644 (file)
@@ -228,11 +228,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movss   64(%rsp, %r14, 4), %xmm0
+       vmovss  64(%rsp, %r14, 4), %xmm0
        call    coshf@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movss   %xmm0, 128(%rsp, %r14, 4)
+       vmovss  %xmm0, 128(%rsp, %r14, 4)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index 6f29218..a00650c 100644 (file)
@@ -242,11 +242,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movss   32(%rsp, %r14, 4), %xmm0
+       vmovss  32(%rsp, %r14, 4), %xmm0
        call    coshf@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movss   %xmm0, 64(%rsp, %r14, 4)
+       vmovss  %xmm0, 64(%rsp, %r14, 4)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index 9daaa0c..5fb5b2f 100644 (file)
@@ -218,11 +218,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movss   64(%rsp, %r14, 4), %xmm0
+       vmovss  64(%rsp, %r14, 4), %xmm0
        call    erfcf@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movss   %xmm0, 128(%rsp, %r14, 4)
+       vmovss  %xmm0, 128(%rsp, %r14, 4)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index 4cafc1b..60b9fab 100644 (file)
@@ -243,11 +243,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movss   32(%rsp, %r14, 4), %xmm0
+       vmovss  32(%rsp, %r14, 4), %xmm0
        call    erfcf@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movss   %xmm0, 64(%rsp, %r14, 4)
+       vmovss  %xmm0, 64(%rsp, %r14, 4)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index eb9f3f8..10f0b2c 100644 (file)
@@ -186,11 +186,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movss   64(%rsp, %r14, 4), %xmm0
+       vmovss  64(%rsp, %r14, 4), %xmm0
        call    exp10f@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movss   %xmm0, 128(%rsp, %r14, 4)
+       vmovss  %xmm0, 128(%rsp, %r14, 4)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index 11244d5..275ab42 100644 (file)
@@ -238,11 +238,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movss   32(%rsp, %r14, 4), %xmm0
+       vmovss  32(%rsp, %r14, 4), %xmm0
        call    exp10f@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movss   %xmm0, 64(%rsp, %r14, 4)
+       vmovss  %xmm0, 64(%rsp, %r14, 4)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index 5b406c6..8a5f1e3 100644 (file)
@@ -209,11 +209,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movss   64(%rsp, %r14, 4), %xmm0
+       vmovss  64(%rsp, %r14, 4), %xmm0
        call    exp2f@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movss   %xmm0, 128(%rsp, %r14, 4)
+       vmovss  %xmm0, 128(%rsp, %r14, 4)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index f7a80a4..cc87e66 100644 (file)
@@ -188,11 +188,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movss   32(%rsp, %r14, 4), %xmm0
+       vmovss  32(%rsp, %r14, 4), %xmm0
        call    exp2f@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movss   %xmm0, 64(%rsp, %r14, 4)
+       vmovss  %xmm0, 64(%rsp, %r14, 4)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index 71d23e6..7fe830d 100644 (file)
@@ -194,11 +194,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movss   64(%rsp, %r14, 4), %xmm0
+       vmovss  64(%rsp, %r14, 4), %xmm0
        call    expm1f@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movss   %xmm0, 128(%rsp, %r14, 4)
+       vmovss  %xmm0, 128(%rsp, %r14, 4)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index 73f8625..d5d7fa2 100644 (file)
@@ -212,11 +212,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movss   32(%rsp, %r14, 4), %xmm0
+       vmovss  32(%rsp, %r14, 4), %xmm0
        call    expm1f@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movss   %xmm0, 64(%rsp, %r14, 4)
+       vmovss  %xmm0, 64(%rsp, %r14, 4)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index 548936f..c92e3ab 100644 (file)
@@ -202,12 +202,12 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movss   64(%rsp, %r14, 4), %xmm0
-       movss   128(%rsp, %r14, 4), %xmm1
+       vmovss  64(%rsp, %r14, 4), %xmm0
+       vmovss  128(%rsp, %r14, 4), %xmm1
        call    hypotf@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movss   %xmm0, 192(%rsp, %r14, 4)
+       vmovss  %xmm0, 192(%rsp, %r14, 4)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index fc97828..7a26c5a 100644 (file)
@@ -226,12 +226,12 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movss   32(%rsp, %r14, 4), %xmm0
-       movss   64(%rsp, %r14, 4), %xmm1
+       vmovss  32(%rsp, %r14, 4), %xmm0
+       vmovss  64(%rsp, %r14, 4), %xmm1
        call    hypotf@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movss   %xmm0, 96(%rsp, %r14, 4)
+       vmovss  %xmm0, 96(%rsp, %r14, 4)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index b192dfe..0eb9b23 100644 (file)
@@ -161,11 +161,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movss   64(%rsp, %r14, 4), %xmm0
+       vmovss  64(%rsp, %r14, 4), %xmm0
        call    log10f@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movss   %xmm0, 128(%rsp, %r14, 4)
+       vmovss  %xmm0, 128(%rsp, %r14, 4)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index ea51c28..4bdc62e 100644 (file)
@@ -174,11 +174,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movss   32(%rsp, %r14, 4), %xmm0
+       vmovss  32(%rsp, %r14, 4), %xmm0
        call    log10f@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movss   %xmm0, 64(%rsp, %r14, 4)
+       vmovss  %xmm0, 64(%rsp, %r14, 4)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index 8fa5068..2c864f0 100644 (file)
@@ -207,11 +207,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movss   64(%rsp, %r14, 4), %xmm0
+       vmovss  64(%rsp, %r14, 4), %xmm0
        call    log1pf@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movss   %xmm0, 128(%rsp, %r14, 4)
+       vmovss  %xmm0, 128(%rsp, %r14, 4)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index 54d6a9a..7326a2b 100644 (file)
@@ -190,11 +190,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movss   32(%rsp, %r14, 4), %xmm0
+       vmovss  32(%rsp, %r14, 4), %xmm0
        call    log1pf@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movss   %xmm0, 64(%rsp, %r14, 4)
+       vmovss  %xmm0, 64(%rsp, %r14, 4)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index 3b0a28f..02b255d 100644 (file)
@@ -158,11 +158,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movss   64(%rsp, %r14, 4), %xmm0
+       vmovss  64(%rsp, %r14, 4), %xmm0
        call    log2f@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movss   %xmm0, 128(%rsp, %r14, 4)
+       vmovss  %xmm0, 128(%rsp, %r14, 4)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index eaa5112..2245d40 100644 (file)
@@ -169,11 +169,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movss   32(%rsp, %r14, 4), %xmm0
+       vmovss  32(%rsp, %r14, 4), %xmm0
        call    log2f@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movss   %xmm0, 64(%rsp, %r14, 4)
+       vmovss  %xmm0, 64(%rsp, %r14, 4)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index fad4847..89be733 100644 (file)
@@ -252,11 +252,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movss   64(%rsp, %r14, 4), %xmm0
+       vmovss  64(%rsp, %r14, 4), %xmm0
        call    sinhf@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movss   %xmm0, 128(%rsp, %r14, 4)
+       vmovss  %xmm0, 128(%rsp, %r14, 4)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index 8c4b46c..e358e2e 100644 (file)
@@ -243,11 +243,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movss   32(%rsp, %r14, 4), %xmm0
+       vmovss  32(%rsp, %r14, 4), %xmm0
        call    sinhf@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movss   %xmm0, 64(%rsp, %r14, 4)
+       vmovss  %xmm0, 64(%rsp, %r14, 4)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index f2a18f0..4e18cdc 100644 (file)
@@ -235,11 +235,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %r12d, %r14d
-       movss   64(%rsp, %r14, 4), %xmm0
+       vmovss  64(%rsp, %r14, 4), %xmm0
        call    tanf@PLT
        # LOE rbx r14 r15 r12d r13d xmm0
 
-       movss   %xmm0, 128(%rsp, %r14, 4)
+       vmovss  %xmm0, 128(%rsp, %r14, 4)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index cd33fac..d34e61a 100644 (file)
@@ -261,11 +261,11 @@ L(SPECIAL_VALUES_LOOP):
 
 L(SCALAR_MATH_CALL):
        movl    %ebx, %r13d
-       movss   32(%rsp, %r13, 4), %xmm0
+       vmovss  32(%rsp, %r13, 4), %xmm0
        call    tanf@PLT
        # LOE r13 r14 r15 ebx r12d xmm0
 
-       movss   %xmm0, 64(%rsp, %r13, 4)
+       vmovss  %xmm0, 64(%rsp, %r13, 4)
 
        /* Process special inputs in loop */
        jmp     L(SPECIAL_VALUES_LOOP)
index 7edc74a..84f73fd 100644 (file)
@@ -221,13 +221,13 @@ L(SPECIAL_VALUES_LOOP):
        tzcntl  %ebx, %ebp
 
        /* Scalar math fucntion call to process special input.  */
-       movss   64(%rsp, %rbp, 4), %xmm0
+       vmovss  64(%rsp, %rbp, 4), %xmm0
        call    tanhf@PLT
 
        /* No good way to avoid the store-forwarding fault this will cause on
           return. `lfence` avoids the SF fault but at greater cost as it
           serialized stack/callee save restoration.  */
-       movss   %xmm0, (%rsp, %rbp, 4)
+       vmovss  %xmm0, (%rsp, %rbp, 4)
 
        blsrl   %ebx, %ebx
        jnz     L(SPECIAL_VALUES_LOOP)
index 55df346..ea3e9f4 100644 (file)
@@ -240,13 +240,13 @@ L(SPECIAL_VALUES_LOOP):
        tzcntl  %ebx, %ebp
 
        /* Scalar math function call to process special input.  */
-       movss   32(%rsp, %rbp, 4), %xmm0
+       vmovss  32(%rsp, %rbp, 4), %xmm0
        call    tanhf@PLT
 
        /* No good way to avoid the store-forwarding fault this will cause on
           return. `lfence` avoids the SF fault but at greater cost as it
           serialized stack/callee save restoration.  */
-       movss   %xmm0, (%rsp, %rbp, 4)
+       vmovss  %xmm0, (%rsp, %rbp, 4)
 
        blsrl   %ebx, %ebx
        jnz     L(SPECIAL_VALUES_LOOP)
index bd26ba8..eb128a2 100644 (file)
@@ -49,7 +49,7 @@
 
        .section SECTION(.text), "ax", @progbits
 ENTRY(STRRCHR)
-       movd    %esi, %xmm7
+       vmovd   %esi, %xmm7
        movl    %edi, %eax
        /* Broadcast CHAR to YMM4.  */
        VPBROADCAST %xmm7, %ymm7