x86-64: Add Avoid_Short_Distance_REP_MOVSB
authorH.J. Lu <hjl.tools@gmail.com>
Fri, 23 Jul 2021 03:26:25 +0000 (20:26 -0700)
committerH.J. Lu <hjl.tools@gmail.com>
Wed, 28 Jul 2021 20:23:57 +0000 (13:23 -0700)
commit 3ec5d83d2a237d39e7fd6ef7a0bc8ac4c171a4a5
Author: H.J. Lu <hjl.tools@gmail.com>
Date:   Sat Jan 25 14:19:40 2020 -0800

    x86-64: Avoid rep movsb with short distance [BZ #27130]

introduced some regressions on Intel processors without Fast Short REP
MOV (FSRM).  Add Avoid_Short_Distance_REP_MOVSB to avoid rep movsb with
short distance only on Intel processors with FSRM.  bench-memmove-large
on Skylake server shows that cycles of __memmove_evex_unaligned_erms
improves for the following data size:

                                  before    after    Improvement
length=4127, align1=3, align2=0:  479.38    349.25      27%
length=4223, align1=9, align2=5:  405.62    333.25      18%
length=8223, align1=3, align2=0:  786.12    496.38      37%
length=8319, align1=9, align2=5:  727.50    501.38      31%
length=16415, align1=3, align2=0: 1436.88   840.00      41%
length=16511, align1=9, align2=5: 1375.50   836.38      39%
length=32799, align1=3, align2=0: 2890.00   1860.12     36%
length=32895, align1=9, align2=5: 2891.38   1931.88     33%

sysdeps/x86/cacheinfo.h
sysdeps/x86/cpu-features.c
sysdeps/x86/include/cpu-features-preferred_feature_index_1.def
sysdeps/x86/sysdep.h
sysdeps/x86_64/multiarch/memmove-vec-unaligned-erms.S

index eba8dbc4a6f3c526e429cb2eecfc3bdad748e2a2..41d2c81369840adac88ce3859143b0c1b017e88f 100644 (file)
@@ -49,6 +49,11 @@ long int __x86_rep_stosb_threshold attribute_hidden = 2048;
 /* Threshold to stop using Enhanced REP MOVSB.  */
 long int __x86_rep_movsb_stop_threshold attribute_hidden;
 
+/* A bit-wise OR of string/memory requirements for optimal performance
+   e.g. X86_STRING_CONTROL_AVOID_SHORT_DISTANCE_REP_MOVSB.  These bits
+   are used at runtime to tune implementation behavior.  */
+int __x86_string_control attribute_hidden;
+
 static void
 init_cacheinfo (void)
 {
@@ -71,5 +76,9 @@ init_cacheinfo (void)
   __x86_rep_movsb_threshold = cpu_features->rep_movsb_threshold;
   __x86_rep_stosb_threshold = cpu_features->rep_stosb_threshold;
   __x86_rep_movsb_stop_threshold =  cpu_features->rep_movsb_stop_threshold;
+
+  if (CPU_FEATURES_ARCH_P (cpu_features, Avoid_Short_Distance_REP_MOVSB))
+    __x86_string_control
+      |= X86_STRING_CONTROL_AVOID_SHORT_DISTANCE_REP_MOVSB;
 }
 #endif
index 706a172ba966b950b3b6fa2fe5e7b5f8bfebccee..645bba63147f6589eb6ae716b7293f42f7e41d9a 100644 (file)
@@ -555,6 +555,11 @@ init_cpu_features (struct cpu_features *cpu_features)
            cpu_features->preferred[index_arch_Prefer_AVX2_STRCMP]
              |= bit_arch_Prefer_AVX2_STRCMP;
        }
+
+      /* Avoid avoid short distance REP MOVSB on processor with FSRM.  */
+      if (CPU_FEATURES_CPU_P (cpu_features, FSRM))
+       cpu_features->preferred[index_arch_Avoid_Short_Distance_REP_MOVSB]
+         |= bit_arch_Avoid_Short_Distance_REP_MOVSB;
     }
   /* This spells out "AuthenticAMD" or "HygonGenuine".  */
   else if ((ebx == 0x68747541 && ecx == 0x444d4163 && edx == 0x69746e65)
index 133aab19f1e83cedf3ea153c692390114f38969e..d7c93f00c5928a30bb2a63be73b1cdc5c74a9ea3 100644 (file)
@@ -33,3 +33,4 @@ BIT (Prefer_No_AVX512)
 BIT (MathVec_Prefer_No_AVX512)
 BIT (Prefer_FSRM)
 BIT (Prefer_AVX2_STRCMP)
+BIT (Avoid_Short_Distance_REP_MOVSB)
index 51c069bfe10533edd3027f7aa59aec5cf92bc35d..cac1d762fb3f99d0954c955781bc13da888cda5a 100644 (file)
@@ -57,6 +57,11 @@ enum cf_protection_level
 #define STATE_SAVE_MASK \
   ((1 << 1) | (1 << 2) | (1 << 3) | (1 << 5) | (1 << 6) | (1 << 7))
 
+/* Constants for bits in __x86_string_control:  */
+
+/* Avoid short distance REP MOVSB.  */
+#define X86_STRING_CONTROL_AVOID_SHORT_DISTANCE_REP_MOVSB      (1 << 0)
+
 #ifdef __ASSEMBLER__
 
 /* Syntactic details of assembler.  */
index a783da5de2acaf8ba6c0ff3a896cb498fe17ffeb..9f02624375c07b26e0b98bf1c6de8a4cf39fbd44 100644 (file)
@@ -325,12 +325,16 @@ L(movsb):
        /* Avoid slow backward REP MOVSB.  */
        jb      L(more_8x_vec_backward)
 # if AVOID_SHORT_DISTANCE_REP_MOVSB
+       andl    $X86_STRING_CONTROL_AVOID_SHORT_DISTANCE_REP_MOVSB, __x86_string_control(%rip)
+       jz      3f
        movq    %rdi, %rcx
        subq    %rsi, %rcx
        jmp     2f
 # endif
 1:
 # if AVOID_SHORT_DISTANCE_REP_MOVSB
+       andl    $X86_STRING_CONTROL_AVOID_SHORT_DISTANCE_REP_MOVSB, __x86_string_control(%rip)
+       jz      3f
        movq    %rsi, %rcx
        subq    %rdi, %rcx
 2:
@@ -338,6 +342,7 @@ L(movsb):
    is N*4GB + [1..63] with N >= 0.  */
        cmpl    $63, %ecx
        jbe     L(more_2x_vec)  /* Avoid "rep movsb" if ECX <= 63.  */
+3:
 # endif
        mov     %RDX_LP, %RCX_LP
        rep movsb