Fixes reduction launch config (#64304)

author Xiang Gao <qasdfgtyuiop@gmail.com>

Wed, 1 Sep 2021 17:17:52 +0000 (10:17 -0700)

committer Facebook GitHub Bot <facebook-github-bot@users.noreply.github.com>

Wed, 1 Sep 2021 17:30:40 +0000 (10:30 -0700)
author Xiang Gao <qasdfgtyuiop@gmail.com>
Wed, 1 Sep 2021 17:17:52 +0000 (10:17 -0700)
committer Facebook GitHub Bot <facebook-github-bot@users.noreply.github.com>
Wed, 1 Sep 2021 17:30:40 +0000 (10:30 -0700)
diff --git a/aten/src/ATen/native/cuda/LinearAlgebra.cu b/aten/src/ATen/native/cuda/LinearAlgebra.cu

index b7ecf38..b4936c0 100644 (file)
--- a/aten/src/ATen/native/cuda/LinearAlgebra.cu
+++ b/aten/src/ATen/native/cuda/LinearAlgebra.cu
@@ -5,7 +5,6 @@
  #include <ATen/native/LinearAlgebra.h>
  #include <ATen/native/DispatchStub.h>
  #include <ATen/native/cuda/Loops.cuh>
-#include <ATen/native/cuda/Reduce.cuh>
  #include <ATen/native/SharedReduceOps.h>
  #include <ATen/native/ReduceOps.h>
  
diff --git a/aten/src/ATen/native/cuda/Normalization.cu b/aten/src/ATen/native/cuda/Normalization.cu

index 1d4d1cc..44e27a9 100644 (file)
--- a/aten/src/ATen/native/cuda/Normalization.cu
+++ b/aten/src/ATen/native/cuda/Normalization.cu
@@ -2,7 +2,6 @@
  #include <ATen/native/ReduceOps.h>
  #include <ATen/native/Resize.h>
  #include <ATen/native/cuda/Loops.cuh>
-#include <ATen/native/cuda/Reduce.cuh>
  #include <ATen/native/cuda/Resize.cuh>
  #include <ATen/native/cuda/Normalization.cuh>
  #include <c10/cuda/CUDAMathCompat.h>
diff --git a/aten/src/ATen/native/cuda/Reduce.cuh b/aten/src/ATen/native/cuda/Reduce.cuh

index b460045..3be7100 100644 (file)
--- a/aten/src/ATen/native/cuda/Reduce.cuh
+++ b/aten/src/ATen/native/cuda/Reduce.cuh
@@ -989,14 +989,14 @@ inline void gpu_reduce_kernel(TensorIterator& iter, const ops_t& ops, ident_t id
        // Map block.x to the fastest reducing dimension. It implies:
        //   1. block_x_reduce is required.
        //   2. block.y now max out to num_outputs.
-      dim0 = iter.shape()[0];
+      dim0 = inputs_per_output;
        dim1 = num_outputs;
        fastest_moving_stride = iter.strides(/*arg=*/input_index)[0];
      } else {
        // Map block.x to the fastest non reducing dimension. It implies:
        //   1. block_x_reduce is turned off.
        //   2. block.y now max out to inputs_per_output.
-      dim0 = iter.shape()[iter.num_reduce_dims()];
+      dim0 = num_outputs;
        dim1 = inputs_per_output;
        fastest_moving_stride = iter.strides(/*arg=*/input_index)[iter.num_reduce_dims()];
      }
author	Xiang Gao <qasdfgtyuiop@gmail.com>
	Wed, 1 Sep 2021 17:17:52 +0000 (10:17 -0700)
committer	Facebook GitHub Bot <facebook-github-bot@users.noreply.github.com>
	Wed, 1 Sep 2021 17:30:40 +0000 (10:30 -0700)
aten/src/ATen/native/cuda/LinearAlgebra.cu		patch \| blob \| history
aten/src/ATen/native/cuda/Normalization.cu		patch \| blob \| history
aten/src/ATen/native/cuda/Reduce.cuh		patch \| blob \| history