i386: Fix up _mm256_vzeroupper() handling [PR99563]

author Jakub Jelinek <jakub@redhat.com>

Tue, 16 Mar 2021 10:16:15 +0000 (11:16 +0100)

committer Jakub Jelinek <jakub@redhat.com>

Tue, 16 Mar 2021 10:16:15 +0000 (11:16 +0100)
author Jakub Jelinek <jakub@redhat.com>
Tue, 16 Mar 2021 10:16:15 +0000 (11:16 +0100)
committer Jakub Jelinek <jakub@redhat.com>
Tue, 16 Mar 2021 10:16:15 +0000 (11:16 +0100)
diff --git a/gcc/config/i386/i386-expand.c b/gcc/config/i386/i386-expand.c

index 02d3142..33b8822 100644 (file)
--- a/gcc/config/i386/i386-expand.c
+++ b/gcc/config/i386/i386-expand.c
@@ -13210,6 +13210,10 @@ rdseed_step:
  
        return 0;
  
+    case IX86_BUILTIN_VZEROUPPER:
+      cfun->machine->has_explicit_vzeroupper = true;
+      break;
+
      default:
        break;
      }
diff --git a/gcc/config/i386/i386-features.c b/gcc/config/i386/i386-features.c

index 41891c9..77783a1 100644 (file)
--- a/gcc/config/i386/i386-features.c
+++ b/gcc/config/i386/i386-features.c
@@ -1837,19 +1837,22 @@ ix86_add_reg_usage_to_vzerouppers (void)
  static unsigned int
  rest_of_handle_insert_vzeroupper (void)
  {
-  int i;
-
-  /* vzeroupper instructions are inserted immediately after reload to
-     account for possible spills from 256bit or 512bit registers.  The pass
-     reuses mode switching infrastructure by re-running mode insertion
-     pass, so disable entities that have already been processed.  */
-  for (i = 0; i < MAX_386_ENTITIES; i++)
-    ix86_optimize_mode_switching[i] = 0;
+  if (TARGET_VZEROUPPER
+      && flag_expensive_optimizations
+      && !optimize_size)
+    {
+      /* vzeroupper instructions are inserted immediately after reload to
+        account for possible spills from 256bit or 512bit registers.  The pass
+        reuses mode switching infrastructure by re-running mode insertion
+        pass, so disable entities that have already been processed.  */
+      for (int i = 0; i < MAX_386_ENTITIES; i++)
+       ix86_optimize_mode_switching[i] = 0;
  
-  ix86_optimize_mode_switching[AVX_U128] = 1;
+      ix86_optimize_mode_switching[AVX_U128] = 1;
  
-  /* Call optimize_mode_switching.  */
-  g->get_passes ()->execute_pass_mode_switching ();
+      /* Call optimize_mode_switching.  */
+      g->get_passes ()->execute_pass_mode_switching ();
+    }
    ix86_add_reg_usage_to_vzerouppers ();
    return 0;
  }
@@ -1880,8 +1883,10 @@ public:
    virtual bool gate (function *)
      {
        return TARGET_AVX
-            && TARGET_VZEROUPPER && flag_expensive_optimizations
-            && !optimize_size;
+            && ((TARGET_VZEROUPPER
+                 && flag_expensive_optimizations
+                 && !optimize_size)
+                || cfun->machine->has_explicit_vzeroupper);
      }
  
    virtual unsigned int execute (function *)
diff --git a/gcc/config/i386/i386.h b/gcc/config/i386/i386.h

index 69fddca..4874910 100644 (file)
--- a/gcc/config/i386/i386.h
+++ b/gcc/config/i386/i386.h
@@ -2941,6 +2941,10 @@ struct GTY(()) machine_function {
    /* True if the function needs a stack frame.  */
    BOOL_BITFIELD stack_frame_required : 1;
  
+  /* True if __builtin_ia32_vzeroupper () has been expanded in current
+     function.  */
+  BOOL_BITFIELD has_explicit_vzeroupper : 1;
+
    /* The largest alignment, in bytes, of stack slot actually used.  */
    unsigned int max_used_stack_alignment;
  
diff --git a/gcc/testsuite/gcc.target/i386/avx-pr99563.c b/gcc/testsuite/gcc.target/i386/avx-pr99563.c

new file mode 100644 (file)

index 0000000..e2e863b
--- /dev/null
+++ b/gcc/testsuite/gcc.target/i386/avx-pr99563.c
@@ -0,0 +1,38 @@
+/* PR target/99563 */
+/* { dg-do run { target avx } } */
+/* { dg-options "-O2 -mavx -mno-vzeroupper" } */
+
+#include "avx-check.h"
+#include <immintrin.h>
+
+
+__attribute__((noipa)) float
+compute_generic (void)
+{
+  return 0.0f;
+}
+
+static inline __attribute__((always_inline))
+float compute_avx (unsigned long block_count)
+{
+  __m128d mm_res = _mm_set1_pd (256.0);
+  float res = (float) (_mm_cvtsd_f64 (mm_res) / (double) block_count);
+  _mm256_zeroupper ();
+  return res;
+}
+
+__attribute__((noipa)) float
+compute (unsigned long block_count)
+{
+  if (block_count >= 64)
+    return compute_avx (block_count);
+  else
+    return compute_generic ();
+}
+
+static void
+avx_test (void)
+{
+  if (compute (128) != 2.0f || compute (32) != 0.0f)
+    abort ();
+}
author	Jakub Jelinek <jakub@redhat.com>
	Tue, 16 Mar 2021 10:16:15 +0000 (11:16 +0100)
committer	Jakub Jelinek <jakub@redhat.com>
	Tue, 16 Mar 2021 10:16:15 +0000 (11:16 +0100)
gcc/config/i386/i386-expand.c		patch \| blob \| history
gcc/config/i386/i386-features.c		patch \| blob \| history
gcc/config/i386/i386.h		patch \| blob \| history
gcc/testsuite/gcc.target/i386/avx-pr99563.c	[new file with mode: 0644]	patch \| blob