Use __ldg for CUDA kernels in fuser (#18540)

author Thomas Viehmann <tv.code@beamnet.de>

Thu, 28 Mar 2019 03:17:01 +0000 (20:17 -0700)

committer Facebook Github Bot <facebook-github-bot@users.noreply.github.com>

Thu, 28 Mar 2019 03:22:17 +0000 (20:22 -0700)
author Thomas Viehmann <tv.code@beamnet.de>
Thu, 28 Mar 2019 03:17:01 +0000 (20:17 -0700)
committer Facebook Github Bot <facebook-github-bot@users.noreply.github.com>
Thu, 28 Mar 2019 03:22:17 +0000 (20:22 -0700)
diff --git a/torch/csrc/jit/fuser/codegen.cpp b/torch/csrc/jit/fuser/codegen.cpp

index 80535b3..06a7009 100644 (file)
--- a/torch/csrc/jit/fuser/codegen.cpp
+++ b/torch/csrc/jit/fuser/codegen.cpp
@@ -332,7 +332,7 @@ std::string generateKernel(
        env.d("nDim", nDim);
        env.s("scalar_type", scalarTypeName(desc.scalar_type));
        formals.push_back(
-          format("TensorInfo<${scalar_type},${nDim}> ${tensor}", env));
+          format("const TensorInfo<${scalar_type},${nDim}> ${tensor}", env));
        argument_loads.push_back(format(
            "*static_cast<TensorInfo<${scalar_type},${nDim}>*>(args[${formal_index}])",
            env));
@@ -393,6 +393,8 @@ std::string generateKernel(
              "access",
              format("__half2float(t${formal}.data[t${formal}_offset])", env));
          has_half_tensor = true;
+      } else if (use_cuda) {
+        env.s("access", format("__ldg(&t${formal}.data[t${formal}_offset])", env));
        } else {
          env.s("access", format("t${formal}.data[t${formal}_offset]", env));
        }
author	Thomas Viehmann <tv.code@beamnet.de>
	Thu, 28 Mar 2019 03:17:01 +0000 (20:17 -0700)
committer	Facebook Github Bot <facebook-github-bot@users.noreply.github.com>
	Thu, 28 Mar 2019 03:22:17 +0000 (20:22 -0700)