[CUDA, MemCpyOpt] Add a flag to force-enable memcpyopt and use it for CUDA.

author Artem Belevich <tra@google.com>

Tue, 20 Jul 2021 21:37:06 +0000 (14:37 -0700)

committer Artem Belevich <tra@google.com>

Fri, 6 Aug 2021 18:13:52 +0000 (11:13 -0700)
author Artem Belevich <tra@google.com>
Tue, 20 Jul 2021 21:37:06 +0000 (14:37 -0700)
committer Artem Belevich <tra@google.com>
Fri, 6 Aug 2021 18:13:52 +0000 (11:13 -0700)
diff --git a/clang/lib/Driver/ToolChains/Cuda.cpp b/clang/lib/Driver/ToolChains/Cuda.cpp

index c4d1ebd..37a4da8 100644 (file)
--- a/clang/lib/Driver/ToolChains/Cuda.cpp
+++ b/clang/lib/Driver/ToolChains/Cuda.cpp
@@ -685,7 +685,8 @@ void CudaToolChain::addClangTargetOptions(
           "Only OpenMP or CUDA offloading kinds are supported for NVIDIA GPUs.");
  
    if (DeviceOffloadingKind == Action::OFK_Cuda) {
-    CC1Args.push_back("-fcuda-is-device");
+    CC1Args.append(
+        {"-fcuda-is-device", "-mllvm", "-enable-memcpyopt-without-libcalls"});
  
      if (DriverArgs.hasFlag(options::OPT_fcuda_approx_transcendentals,
                             options::OPT_fno_cuda_approx_transcendentals, false))
diff --git a/llvm/lib/Transforms/Scalar/MemCpyOptimizer.cpp b/llvm/lib/Transforms/Scalar/MemCpyOptimizer.cpp

index 0dd0b45..42650f3 100644 (file)
--- a/llvm/lib/Transforms/Scalar/MemCpyOptimizer.cpp
+++ b/llvm/lib/Transforms/Scalar/MemCpyOptimizer.cpp
@@ -67,6 +67,10 @@ using namespace llvm;
  
  #define DEBUG_TYPE "memcpyopt"
  
+static cl::opt<bool> EnableMemCpyOptWithoutLibcalls(
+    "enable-memcpyopt-without-libcalls", cl::init(false), cl::Hidden,
+    cl::desc("Enable memcpyopt even when libcalls are disabled"));
+
  static cl::opt<bool>
      EnableMemorySSA("enable-memcpyopt-memoryssa", cl::init(true), cl::Hidden,
                      cl::desc("Use MemorySSA-backed MemCpyOpt."));
@@ -677,8 +681,9 @@ bool MemCpyOptPass::processStore(StoreInst *SI, BasicBlock::iterator &BBI) {
        // the corresponding libcalls are not available.
        // TODO: We should really distinguish between libcall availability and
        // our ability to introduce intrinsics.
-      if (T->isAggregateType() && TLI->has(LibFunc_memcpy) &&
-          TLI->has(LibFunc_memmove)) {
+      if (T->isAggregateType() &&
+          (EnableMemCpyOptWithoutLibcalls ||
+           (TLI->has(LibFunc_memcpy) && TLI->has(LibFunc_memmove)))) {
          MemoryLocation LoadLoc = MemoryLocation::get(LI);
  
          // We use alias analysis to check if an instruction may store to
@@ -806,7 +811,7 @@ bool MemCpyOptPass::processStore(StoreInst *SI, BasicBlock::iterator &BBI) {
    // this if the corresponding libfunc is not available.
    // TODO: We should really distinguish between libcall availability and
    // our ability to introduce intrinsics.
-  if (!TLI->has(LibFunc_memset))
+  if (!(TLI->has(LibFunc_memset) || EnableMemCpyOptWithoutLibcalls))
      return false;
  
    // There are two cases that are interesting for this code to handle: memcpy
diff --git a/llvm/test/Transforms/MemCpyOpt/no-libcalls.ll b/llvm/test/Transforms/MemCpyOpt/no-libcalls.ll

index c4d9351..ac7cfc5 100644 (file)
--- a/llvm/test/Transforms/MemCpyOpt/no-libcalls.ll
+++ b/llvm/test/Transforms/MemCpyOpt/no-libcalls.ll
@@ -1,6 +1,8 @@
  ; NOTE: Assertions have been autogenerated by utils/update_test_checks.py
  ; RUN: opt -S -memcpyopt < %s | FileCheck %s --check-prefixes=CHECK,LIBCALLS
  ; RUN: opt -S -memcpyopt -mtriple=amdgcn-- < %s | FileCheck %s --check-prefixes=CHECK,NO-LIBCALLS
+; RUN: opt -S -memcpyopt -mtriple=amdgcn-- -enable-memcpyopt-without-libcalls < %s \
+; RUN:     | FileCheck %s --check-prefixes=CHECK,LIBCALLS
  
  ; REQUIRES: amdgpu-registered-target
author	Artem Belevich <tra@google.com>
	Tue, 20 Jul 2021 21:37:06 +0000 (14:37 -0700)
committer	Artem Belevich <tra@google.com>
	Fri, 6 Aug 2021 18:13:52 +0000 (11:13 -0700)
clang/lib/Driver/ToolChains/Cuda.cpp		patch \| blob \| history
llvm/lib/Transforms/Scalar/MemCpyOptimizer.cpp		patch \| blob \| history
llvm/test/Transforms/MemCpyOpt/no-libcalls.ll		patch \| blob \| history