[SDAG] fold sub-of-shift to add-of-shift

author Sanjay Patel <spatel@rotateright.com>

Fri, 18 Feb 2022 16:43:03 +0000 (11:43 -0500)

committer Sanjay Patel <spatel@rotateright.com>

Fri, 18 Feb 2022 16:55:50 +0000 (11:55 -0500)
author Sanjay Patel <spatel@rotateright.com>
Fri, 18 Feb 2022 16:43:03 +0000 (11:43 -0500)
committer Sanjay Patel <spatel@rotateright.com>
Fri, 18 Feb 2022 16:55:50 +0000 (11:55 -0500)
diff --git a/llvm/lib/CodeGen/SelectionDAG/DAGCombiner.cpp b/llvm/lib/CodeGen/SelectionDAG/DAGCombiner.cpp

index a070833..89c3e41 100644 (file)
--- a/llvm/lib/CodeGen/SelectionDAG/DAGCombiner.cpp
+++ b/llvm/lib/CodeGen/SelectionDAG/DAGCombiner.cpp
@@ -3656,6 +3656,15 @@ SDValue DAGCombiner::visitSUB(SDNode *N) {
      }
    }
  
+  // As with the previous fold, prefer add for more folding potential.
+  // Subtracting SMIN/0 is the same as adding SMIN/0:
+  // N0 - (X << BW-1) --> N0 + (X << BW-1)
+  if (N1.getOpcode() == ISD::SHL) {
+    ConstantSDNode *ShlC = isConstOrConstSplat(N1.getOperand(1));
+    if (ShlC && ShlC->getAPIntValue() == VT.getScalarSizeInBits() - 1)
+      return DAG.getNode(ISD::ADD, DL, VT, N1, N0);
+  }
+
    if (TLI.isOperationLegalOrCustom(ISD::ADDCARRY, VT)) {
      // (sub Carry, X)  ->  (addcarry (sub 0, X), 0, Carry)
      if (SDValue Carry = getAsCarry(TLI, N0)) {
diff --git a/llvm/test/CodeGen/AArch64/srem-seteq-vec-splat.ll b/llvm/test/CodeGen/AArch64/srem-seteq-vec-splat.ll

index fc033bc..c6f7377 100644 (file)
--- a/llvm/test/CodeGen/AArch64/srem-seteq-vec-splat.ll
+++ b/llvm/test/CodeGen/AArch64/srem-seteq-vec-splat.ll
@@ -208,7 +208,7 @@ define <4 x i32> @test_srem_int_min(<4 x i32> %X) nounwind {
  ; CHECK-NEXT:    movi v3.4s, #128, lsl #24
  ; CHECK-NEXT:    usra v1.4s, v2.4s, #1
  ; CHECK-NEXT:    and v1.16b, v1.16b, v3.16b
-; CHECK-NEXT:    sub v0.4s, v0.4s, v1.4s
+; CHECK-NEXT:    add v0.4s, v1.4s, v0.4s
  ; CHECK-NEXT:    movi v1.4s, #1
  ; CHECK-NEXT:    cmeq v0.4s, v0.4s, #0
  ; CHECK-NEXT:    and v0.16b, v0.16b, v1.16b
diff --git a/llvm/test/CodeGen/X86/combine-srem.ll b/llvm/test/CodeGen/X86/combine-srem.ll

index be2b7b8..575f371 100644 (file)
--- a/llvm/test/CodeGen/X86/combine-srem.ll
+++ b/llvm/test/CodeGen/X86/combine-srem.ll
@@ -74,7 +74,7 @@ define <4 x i32> @combine_vec_srem_by_minsigned(<4 x i32> %x) {
  ; SSE-NEXT:    psrld $1, %xmm1
  ; SSE-NEXT:    paddd %xmm0, %xmm1
  ; SSE-NEXT:    pand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1
-; SSE-NEXT:    psubd %xmm1, %xmm0
+; SSE-NEXT:    paddd %xmm1, %xmm0
  ; SSE-NEXT:    retq
  ;
  ; AVX1-LABEL: combine_vec_srem_by_minsigned:
@@ -83,7 +83,7 @@ define <4 x i32> @combine_vec_srem_by_minsigned(<4 x i32> %x) {
  ; AVX1-NEXT:    vpsrld $1, %xmm1, %xmm1
  ; AVX1-NEXT:    vpaddd %xmm1, %xmm0, %xmm1
  ; AVX1-NEXT:    vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1
-; AVX1-NEXT:    vpsubd %xmm1, %xmm0, %xmm0
+; AVX1-NEXT:    vpaddd %xmm0, %xmm1, %xmm0
  ; AVX1-NEXT:    retq
  ;
  ; AVX2-LABEL: combine_vec_srem_by_minsigned:
@@ -93,7 +93,7 @@ define <4 x i32> @combine_vec_srem_by_minsigned(<4 x i32> %x) {
  ; AVX2-NEXT:    vpaddd %xmm1, %xmm0, %xmm1
  ; AVX2-NEXT:    vpbroadcastd {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]
  ; AVX2-NEXT:    vpand %xmm2, %xmm1, %xmm1
-; AVX2-NEXT:    vpsubd %xmm1, %xmm0, %xmm0
+; AVX2-NEXT:    vpaddd %xmm0, %xmm1, %xmm0
  ; AVX2-NEXT:    retq
    %1 = srem <4 x i32> %x, <i32 -2147483648, i32 -2147483648, i32 -2147483648, i32 -2147483648>
    ret <4 x i32> %1
diff --git a/llvm/test/CodeGen/X86/imul.ll b/llvm/test/CodeGen/X86/imul.ll

index 4a4b159..9131688 100644 (file)
--- a/llvm/test/CodeGen/X86/imul.ll
+++ b/llvm/test/CodeGen/X86/imul.ll
@@ -529,9 +529,8 @@ define i64 @testNegOverflow(i64 %a) {
  ; X64-LABEL: testNegOverflow:
  ; X64:       # %bb.0: # %entry
  ; X64-NEXT:    movq %rdi, %rax
-; X64-NEXT:    movq %rdi, %rcx
-; X64-NEXT:    shlq $63, %rcx
-; X64-NEXT:    subq %rcx, %rax
+; X64-NEXT:    shlq $63, %rax
+; X64-NEXT:    addq %rdi, %rax
  ; X64-NEXT:    retq
  ;
  ; X86-LABEL: testNegOverflow:
diff --git a/llvm/test/CodeGen/X86/srem-seteq-vec-splat.ll b/llvm/test/CodeGen/X86/srem-seteq-vec-splat.ll

index 4aa45ec..95eb23f 100644 (file)
--- a/llvm/test/CodeGen/X86/srem-seteq-vec-splat.ll
+++ b/llvm/test/CodeGen/X86/srem-seteq-vec-splat.ll
@@ -622,7 +622,7 @@ define <4 x i32> @test_srem_int_min(<4 x i32> %X) nounwind {
  ; CHECK-SSE-NEXT:    psrld $1, %xmm1
  ; CHECK-SSE-NEXT:    paddd %xmm0, %xmm1
  ; CHECK-SSE-NEXT:    pand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1
-; CHECK-SSE-NEXT:    psubd %xmm1, %xmm0
+; CHECK-SSE-NEXT:    paddd %xmm1, %xmm0
  ; CHECK-SSE-NEXT:    pxor %xmm1, %xmm1
  ; CHECK-SSE-NEXT:    pcmpeqd %xmm1, %xmm0
  ; CHECK-SSE-NEXT:    psrld $31, %xmm0
@@ -634,7 +634,7 @@ define <4 x i32> @test_srem_int_min(<4 x i32> %X) nounwind {
  ; CHECK-AVX1-NEXT:    vpsrld $1, %xmm1, %xmm1
  ; CHECK-AVX1-NEXT:    vpaddd %xmm1, %xmm0, %xmm1
  ; CHECK-AVX1-NEXT:    vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1
-; CHECK-AVX1-NEXT:    vpsubd %xmm1, %xmm0, %xmm0
+; CHECK-AVX1-NEXT:    vpaddd %xmm0, %xmm1, %xmm0
  ; CHECK-AVX1-NEXT:    vpxor %xmm1, %xmm1, %xmm1
  ; CHECK-AVX1-NEXT:    vpcmpeqd %xmm1, %xmm0, %xmm0
  ; CHECK-AVX1-NEXT:    vpsrld $31, %xmm0, %xmm0
@@ -647,7 +647,7 @@ define <4 x i32> @test_srem_int_min(<4 x i32> %X) nounwind {
  ; CHECK-AVX2-NEXT:    vpaddd %xmm1, %xmm0, %xmm1
  ; CHECK-AVX2-NEXT:    vpbroadcastd {{.*#+}} xmm2 = [2147483648,2147483648,2147483648,2147483648]
  ; CHECK-AVX2-NEXT:    vpand %xmm2, %xmm1, %xmm1
-; CHECK-AVX2-NEXT:    vpsubd %xmm1, %xmm0, %xmm0
+; CHECK-AVX2-NEXT:    vpaddd %xmm0, %xmm1, %xmm0
  ; CHECK-AVX2-NEXT:    vpxor %xmm1, %xmm1, %xmm1
  ; CHECK-AVX2-NEXT:    vpcmpeqd %xmm1, %xmm0, %xmm0
  ; CHECK-AVX2-NEXT:    vpsrld $31, %xmm0, %xmm0
@@ -659,7 +659,7 @@ define <4 x i32> @test_srem_int_min(<4 x i32> %X) nounwind {
  ; CHECK-AVX512VL-NEXT:    vpsrld $1, %xmm1, %xmm1
  ; CHECK-AVX512VL-NEXT:    vpaddd %xmm1, %xmm0, %xmm1
  ; CHECK-AVX512VL-NEXT:    vpandd {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to4}, %xmm1, %xmm1
-; CHECK-AVX512VL-NEXT:    vpsubd %xmm1, %xmm0, %xmm0
+; CHECK-AVX512VL-NEXT:    vpaddd %xmm0, %xmm1, %xmm0
  ; CHECK-AVX512VL-NEXT:    vpxor %xmm1, %xmm1, %xmm1
  ; CHECK-AVX512VL-NEXT:    vpcmpeqd %xmm1, %xmm0, %xmm0
  ; CHECK-AVX512VL-NEXT:    vpsrld $31, %xmm0, %xmm0
author	Sanjay Patel <spatel@rotateright.com>
	Fri, 18 Feb 2022 16:43:03 +0000 (11:43 -0500)
committer	Sanjay Patel <spatel@rotateright.com>
	Fri, 18 Feb 2022 16:55:50 +0000 (11:55 -0500)
llvm/lib/CodeGen/SelectionDAG/DAGCombiner.cpp		patch \| blob \| history
llvm/test/CodeGen/AArch64/srem-seteq-vec-splat.ll		patch \| blob \| history
llvm/test/CodeGen/X86/combine-srem.ll		patch \| blob \| history
llvm/test/CodeGen/X86/imul.ll		patch \| blob \| history
llvm/test/CodeGen/X86/srem-seteq-vec-splat.ll		patch \| blob \| history