add substract of max and testcase (#63132)

author leslie-fang-intel <leslie.fang@intel.com>

Sat, 14 Aug 2021 03:49:27 +0000 (20:49 -0700)

committer Facebook GitHub Bot <facebook-github-bot@users.noreply.github.com>

Sat, 14 Aug 2021 03:50:49 +0000 (20:50 -0700)
author leslie-fang-intel <leslie.fang@intel.com>
Sat, 14 Aug 2021 03:49:27 +0000 (20:49 -0700)
committer Facebook GitHub Bot <facebook-github-bot@users.noreply.github.com>
Sat, 14 Aug 2021 03:50:49 +0000 (20:50 -0700)
diff --git a/aten/src/ATen/native/cpu/SoftMaxKernel.cpp b/aten/src/ATen/native/cpu/SoftMaxKernel.cpp

index 1e03ef2..790ac74 100644 (file)
--- a/aten/src/ATen/native/cpu/SoftMaxKernel.cpp
+++ b/aten/src/ATen/native/cpu/SoftMaxKernel.cpp
@@ -256,9 +256,8 @@ inline void _vec_softmax(
              for (int64_t d = 0; d < dim_size; d++) {
                Vec output_vec_o1 = Vec::loadu(temp_vec_input_data + d*vectorized_step*2);
                Vec output_vec_o2 = Vec::loadu(temp_vec_input_data + d*vectorized_step*2 + vectorized_step);
-              output_vec_o1 = output_vec_o1.exp();
-              output_vec_o2 = output_vec_o2.exp();
-
+              output_vec_o1 = (output_vec_o1 - max_vec_o1).exp();
+              output_vec_o2 = (output_vec_o2 - max_vec_o2).exp();
                output_vec_o1.store(temp_vec_output_data + d*vectorized_step*2);
                output_vec_o2.store(temp_vec_output_data + d*vectorized_step*2 + vectorized_step);
  
diff --git a/test/test_nn.py b/test/test_nn.py

index 6ccf81e..b6eb297 100644 (file)
--- a/test/test_nn.py
+++ b/test/test_nn.py
@@ -16571,9 +16571,11 @@ class TestNNDeviceType(NNTestCase):
                            lambda: nn.functional.multi_margin_loss(torch.randn(5, device=device),
                                                                    torch.zeros(3, device=device)))
  
-    def _test_bfloat16_ops(self, op, device, inp_dims=(), prec=1e-2):
+    def _test_bfloat16_ops(self, op, device, inp_dims=(), prec=1e-2, scale_factor=None):
          # fp32 compute
          input1 = torch.randn(inp_dims, dtype=torch.float32, device=device, requires_grad=True)
+        if scale_factor is not None:
+            input1 = (torch.rand(inp_dims, dtype=torch.bfloat16, device=device) * scale_factor).float().requires_grad_()
          out1 = op(input1)
          grad_input1 = torch.randn_like(out1, device=device)
          out1.backward(grad_input1)
@@ -16585,8 +16587,8 @@ class TestNNDeviceType(NNTestCase):
          out2 = op_bfp16(input2)
          out2.backward(grad_input2)
  
-        self.assertEqual(out1, out2, atol=prec, rtol=0, exact_dtype=False)
-        self.assertEqual(input1.grad.data, input2.grad.data, atol=prec, rtol=0, exact_dtype=False)
+        self.assertEqual(out1, out2, atol=prec, rtol=prec, exact_dtype=False)
+        self.assertEqual(input1.grad.data, input2.grad.data, atol=prec, rtol=prec, exact_dtype=False)
  
      @onlyCUDA
      def test_activations_bfloat16(self, device):
@@ -16611,6 +16613,8 @@ class TestNNDeviceType(NNTestCase):
      def test_softmax_bfloat16(self, device):
          for dim in [0, 1, 2, 3]:
              self._test_bfloat16_ops(torch.nn.Softmax(dim=dim), device, inp_dims=(16, 33, 15, 16), prec=1e-2)
+            # test softmax with large input value which casues exp() to overflow
+            self._test_bfloat16_ops(torch.nn.Softmax(dim=dim), device, inp_dims=(16, 33, 15, 16), prec=0.05, scale_factor=1000.0)
  
      @onlyCUDA
      @skipCUDAIfRocm
author	leslie-fang-intel <leslie.fang@intel.com>
	Sat, 14 Aug 2021 03:49:27 +0000 (20:49 -0700)
committer	Facebook GitHub Bot <facebook-github-bot@users.noreply.github.com>
	Sat, 14 Aug 2021 03:50:49 +0000 (20:50 -0700)
aten/src/ATen/native/cpu/SoftMaxKernel.cpp		patch \| blob \| history
test/test_nn.py		patch \| blob \| history