Improve bmm() performance on CPU when input tensor is non-contiguous (#19338)

author Mingfei Ma <mingfei.ma@intel.com>

Thu, 18 Apr 2019 13:31:24 +0000 (06:31 -0700)

committer Facebook Github Bot <facebook-github-bot@users.noreply.github.com>

Thu, 18 Apr 2019 13:34:17 +0000 (06:34 -0700)
author Mingfei Ma <mingfei.ma@intel.com>
Thu, 18 Apr 2019 13:31:24 +0000 (06:31 -0700)
committer Facebook Github Bot <facebook-github-bot@users.noreply.github.com>
Thu, 18 Apr 2019 13:34:17 +0000 (06:34 -0700)
diff --git a/aten/src/ATen/native/LinearAlgebra.cpp b/aten/src/ATen/native/LinearAlgebra.cpp

index ee8b743..b40120c 100644 (file)
--- a/aten/src/ATen/native/LinearAlgebra.cpp
+++ b/aten/src/ATen/native/LinearAlgebra.cpp
@@ -297,8 +297,8 @@ static inline Tensor& bmm_out_or_baddbmm_(Tensor& self_or_result, const Tensor&
    }
  
    auto batch_items_contiguous_or_transposed = [&](const Tensor& t) {
-    return (t.stride(2) == 1 && t.stride(1) == t.size(2))
-            || (t.stride(1) == 1 && t.stride(2) == t.size(1));
+    return (t.stride(2) == 1 && t.stride(1) >= t.size(2))
+            || (t.stride(1) == 1 && t.stride(2) >= t.size(1));
    };
  
    if (contraction_size * res_rows * res_cols < 400) {
diff --git a/aten/src/ATen/native/mkl/LinearAlgebra.cpp b/aten/src/ATen/native/mkl/LinearAlgebra.cpp

index 809bd82..a6ecdcd 100644 (file)
--- a/aten/src/ATen/native/mkl/LinearAlgebra.cpp
+++ b/aten/src/ATen/native/mkl/LinearAlgebra.cpp
@@ -34,10 +34,8 @@ namespace at { namespace native {
  
  static inline void gemm_batched(const CBLAS_TRANSPOSE trans_A, const CBLAS_TRANSPOSE trans_B,
    const int batch_size, const int M, const int N, const int K, const float alpha,
-  const float** A, const float** B, const float beta, float** C) {
-  const int lda = (trans_A == CblasNoTrans) ? K : M;
-  const int ldb = (trans_B == CblasNoTrans) ? N : K;
-  const int ldc = N;
+  const float** A, const int lda, const float** B, const int ldb, const float beta,
+  float** C, const int ldc) {
  
    cblas_sgemm_batch(CblasRowMajor, &trans_A, &trans_B, &M, &N, &K, &alpha,
      A, &lda, B, &ldb, &beta, C, &ldc, 1, &batch_size);
@@ -45,10 +43,8 @@ static inline void gemm_batched(const CBLAS_TRANSPOSE trans_A, const CBLAS_TRANS
  
  static inline void gemm_batched(const CBLAS_TRANSPOSE trans_A, const CBLAS_TRANSPOSE trans_B,
    const int batch_size, const int M, const int N, const int K, const double alpha,
-  const double** A, const double** B, const double beta, double** C) {
-  const int lda = (trans_A == CblasNoTrans) ? K : M;
-  const int ldb = (trans_B == CblasNoTrans) ? N : K;
-  const int ldc = N;
+  const double** A, const int lda, const double** B, const int ldb, const double beta,
+  double** C, const int ldc) {
  
    cblas_dgemm_batch(CblasRowMajor, &trans_A, &trans_B, &M, &N, &K, &alpha,
      A, &lda, B, &ldb, &beta, C, &ldc, 1, &batch_size);
@@ -57,7 +53,7 @@ static inline void gemm_batched(const CBLAS_TRANSPOSE trans_A, const CBLAS_TRANS
  template <typename scalar_t>
  static inline void baddbmm_mkl_template(const Tensor& res, const Tensor& mat1, const Tensor& mat2, Scalar beta_, Scalar alpha_) {
    auto is_transposed = [&](const Tensor& t) {
-    return t.stride(0) == 1 && t.stride(1) == t.size(0);
+    return t.stride(0) == 1 && t.stride(1) >= t.size(0);
    };
    const CBLAS_TRANSPOSE trans_A = is_transposed(mat1[0]) ? CblasTrans : CblasNoTrans;
    const CBLAS_TRANSPOSE trans_B = is_transposed(mat2[0]) ? CblasTrans : CblasNoTrans;
@@ -69,6 +65,10 @@ static inline void baddbmm_mkl_template(const Tensor& res, const Tensor& mat1, c
    scalar_t alpha = alpha_.to<scalar_t>();
    scalar_t beta = beta_.to<scalar_t>();
  
+  const int lda = is_transposed(mat1[0]) ? mat1[0].stride(1) : mat1[0].stride(0);
+  const int ldb = is_transposed(mat2[0]) ? mat2[0].stride(1) : mat2[0].stride(0);
+  const int ldc = res[0].stride(0);
+
    std::vector<const scalar_t*> A(batch_size);
    std::vector<const scalar_t*> B(batch_size);
    std::vector<scalar_t*> C(batch_size);
@@ -78,7 +78,7 @@ static inline void baddbmm_mkl_template(const Tensor& res, const Tensor& mat1, c
      C[batch] = res[batch].data<scalar_t>();
    }
  
-  gemm_batched(trans_A, trans_B, batch_size, M, N, K, alpha, A.data(), B.data(), beta, C.data());
+  gemm_batched(trans_A, trans_B, batch_size, M, N, K, alpha, A.data(), lda, B.data(), ldb, beta, C.data(), ldc);
  }
  
  Tensor& _baddbmm_mkl_(Tensor& self, const Tensor& batch1, const Tensor& batch2, Scalar beta, Scalar alpha) {
author	Mingfei Ma <mingfei.ma@intel.com>
	Thu, 18 Apr 2019 13:31:24 +0000 (06:31 -0700)
committer	Facebook Github Bot <facebook-github-bot@users.noreply.github.com>
	Thu, 18 Apr 2019 13:34:17 +0000 (06:34 -0700)
aten/src/ATen/native/LinearAlgebra.cpp		patch \| blob \| history
aten/src/ATen/native/mkl/LinearAlgebra.cpp		patch \| blob \| history