[AMDGPU] Use UniformityAnalysis in AtomicOptimizer

author pvanhout <pierre.vanhoutryve@amd.com>

Tue, 14 Mar 2023 07:46:05 +0000 (08:46 +0100)

committer pvanhout <pierre.vanhoutryve@amd.com>

Wed, 15 Mar 2023 08:39:55 +0000 (09:39 +0100)
author pvanhout <pierre.vanhoutryve@amd.com>
Tue, 14 Mar 2023 07:46:05 +0000 (08:46 +0100)
committer pvanhout <pierre.vanhoutryve@amd.com>
Wed, 15 Mar 2023 08:39:55 +0000 (09:39 +0100)
diff --git a/llvm/include/llvm/ADT/GenericSSAContext.h b/llvm/include/llvm/ADT/GenericSSAContext.h

index 7c02060..40b2be7 100644 (file)
--- a/llvm/include/llvm/ADT/GenericSSAContext.h
+++ b/llvm/include/llvm/ADT/GenericSSAContext.h
@@ -53,6 +53,11 @@ public:
    // indicated by the compiler.
    using FunctionT = typename _FunctionT::invalidTemplateInstanceError;
  
+  // A UseT represents a data-edge from the defining instruction to the using
+  // instruction.
+  //
+  // using UseT = ...
+
    // Initialize the SSA context with information about the FunctionT being
    // processed.
    //
diff --git a/llvm/include/llvm/ADT/GenericUniformityImpl.h b/llvm/include/llvm/ADT/GenericUniformityImpl.h

index 66a1880..7eff61b 100644 (file)
--- a/llvm/include/llvm/ADT/GenericUniformityImpl.h
+++ b/llvm/include/llvm/ADT/GenericUniformityImpl.h
@@ -330,6 +330,7 @@ public:
    using FunctionT = typename ContextT::FunctionT;
    using ValueRefT = typename ContextT::ValueRefT;
    using ConstValueRefT = typename ContextT::ConstValueRefT;
+  using UseT = typename ContextT::UseT;
    using InstructionT = typename ContextT::InstructionT;
    using DominatorTreeT = typename ContextT::DominatorTreeT;
  
@@ -384,6 +385,8 @@ public:
    /// \brief Whether \p Val is divergent at its definition.
    bool isDivergent(ConstValueRefT V) const { return DivergentValues.count(V); }
  
+  bool isDivergentUse(const UseT &U) const;
+
    bool hasDivergentTerminator(const BlockT &B) const {
      return DivergentTermBlocks.contains(&B);
    }
@@ -462,9 +465,9 @@ private:
  
    bool usesValueFromCycle(const InstructionT &I, const CycleT &DefCycle) const;
  
-  /// \brief Whether \p Val is divergent when read in \p ObservingBlock.
+  /// \brief Whether \p Def is divergent when read in \p ObservingBlock.
    bool isTemporalDivergent(const BlockT &ObservingBlock,
-                           ConstValueRefT Val) const;
+                           const InstructionT &Def) const;
  };
  
  template <typename ImplT>
@@ -1092,6 +1095,20 @@ getOutermostDivergentCycle(const CycleT *Cycle, const BlockT *DivTermBlock,
  }
  
  template <typename ContextT>
+bool GenericUniformityAnalysisImpl<ContextT>::isTemporalDivergent(
+    const BlockT &ObservingBlock, const InstructionT &Def) const {
+  const BlockT *DefBlock = Def.getParent();
+  for (const CycleT *Cycle = CI.getCycle(DefBlock);
+       Cycle && !Cycle->contains(&ObservingBlock);
+       Cycle = Cycle->getParentCycle()) {
+    if (DivergentExitCycles.contains(Cycle)) {
+      return true;
+    }
+  }
+  return false;
+}
+
+template <typename ContextT>
  void GenericUniformityAnalysisImpl<ContextT>::analyzeControlDivergence(
      const InstructionT &Term) {
    const auto *DivTermBlock = Term.getParent();
@@ -1274,6 +1291,11 @@ bool GenericUniformityInfo<ContextT>::isDivergent(const InstructionT *I) const {
  }
  
  template <typename ContextT>
+bool GenericUniformityInfo<ContextT>::isDivergentUse(const UseT &U) const {
+  return DA->isDivergentUse(U);
+}
+
+template <typename ContextT>
  bool GenericUniformityInfo<ContextT>::hasDivergentTerminator(const BlockT &B) {
    return DA->hasDivergentTerminator(B);
  }
diff --git a/llvm/include/llvm/ADT/GenericUniformityInfo.h b/llvm/include/llvm/ADT/GenericUniformityInfo.h

index 987239d..add5f3c 100644 (file)
--- a/llvm/include/llvm/ADT/GenericUniformityInfo.h
+++ b/llvm/include/llvm/ADT/GenericUniformityInfo.h
@@ -36,6 +36,7 @@ public:
    using FunctionT = typename ContextT::FunctionT;
    using ValueRefT = typename ContextT::ValueRefT;
    using ConstValueRefT = typename ContextT::ConstValueRefT;
+  using UseT = typename ContextT::UseT;
    using InstructionT = typename ContextT::InstructionT;
    using DominatorTreeT = typename ContextT::DominatorTreeT;
    using ThisT = GenericUniformityInfo<ContextT>;
@@ -69,6 +70,10 @@ public:
    bool isUniform(const InstructionT *I) const { return !isDivergent(I); };
    bool isDivergent(const InstructionT *I) const;
  
+  /// \brief Whether \p U is divergent. Uses of a uniform value can be
+  /// divergent.
+  bool isDivergentUse(const UseT &U) const;
+
    bool hasDivergentTerminator(const BlockT &B);
  
    void print(raw_ostream &Out) const;
diff --git a/llvm/include/llvm/CodeGen/MachineSSAContext.h b/llvm/include/llvm/CodeGen/MachineSSAContext.h

index 8bf963d..a3788f1 100644 (file)
--- a/llvm/include/llvm/CodeGen/MachineSSAContext.h
+++ b/llvm/include/llvm/CodeGen/MachineSSAContext.h
@@ -45,6 +45,7 @@ public:
    using ValueRefT = Register;
    using ConstValueRefT = Register;
    static const Register ValueRefNull;
+  using UseT = MachineOperand;
    using DominatorTreeT = DominatorTreeBase<BlockT, false>;
  
    void setFunction(MachineFunction &Fn);
diff --git a/llvm/include/llvm/IR/SSAContext.h b/llvm/include/llvm/IR/SSAContext.h

index 346c1fc..5180c92 100644 (file)
--- a/llvm/include/llvm/IR/SSAContext.h
+++ b/llvm/include/llvm/IR/SSAContext.h
@@ -44,6 +44,7 @@ public:
    using ValueRefT = Value *;
    using ConstValueRefT = const Value *;
    static Value *ValueRefNull;
+  using UseT = Use;
    using DominatorTreeT = DominatorTreeBase<BlockT, false>;
  
    void setFunction(Function &Fn);
diff --git a/llvm/lib/Analysis/UniformityAnalysis.cpp b/llvm/lib/Analysis/UniformityAnalysis.cpp

index 7dfa628..13a9c2b 100644 (file)
--- a/llvm/lib/Analysis/UniformityAnalysis.cpp
+++ b/llvm/lib/Analysis/UniformityAnalysis.cpp
@@ -78,6 +78,19 @@ bool llvm::GenericUniformityAnalysisImpl<SSAContext>::usesValueFromCycle(
    return false;
  }
  
+template <>
+bool llvm::GenericUniformityAnalysisImpl<SSAContext>::isDivergentUse(
+    const Use &U) const {
+  const auto *V = U.get();
+  if (isDivergent(V))
+    return true;
+  if (const auto *DefInstr = dyn_cast<Instruction>(V)) {
+    const auto *UseInstr = cast<Instruction>(U.getUser());
+    return isTemporalDivergent(*UseInstr->getParent(), *DefInstr);
+  }
+  return false;
+}
+
  // This ensures explicit instantiation of
  // GenericUniformityAnalysisImpl::ImplDeleter::operator()
  template class llvm::GenericUniformityInfo<SSAContext>;
@@ -122,6 +135,7 @@ UniformityInfoWrapperPass::UniformityInfoWrapperPass() : FunctionPass(ID) {
  INITIALIZE_PASS_BEGIN(UniformityInfoWrapperPass, "uniformity",
                        "Uniformity Analysis", true, true)
  INITIALIZE_PASS_DEPENDENCY(DominatorTreeWrapperPass)
+INITIALIZE_PASS_DEPENDENCY(CycleInfoWrapperPass)
  INITIALIZE_PASS_DEPENDENCY(TargetTransformInfoWrapperPass)
  INITIALIZE_PASS_END(UniformityInfoWrapperPass, "uniformity",
                      "Uniformity Analysis", true, true)
@@ -129,7 +143,7 @@ INITIALIZE_PASS_END(UniformityInfoWrapperPass, "uniformity",
  void UniformityInfoWrapperPass::getAnalysisUsage(AnalysisUsage &AU) const {
    AU.setPreservesAll();
    AU.addRequired<DominatorTreeWrapperPass>();
-  AU.addRequired<CycleInfoWrapperPass>();
+  AU.addRequiredTransitive<CycleInfoWrapperPass>();
    AU.addRequired<TargetTransformInfoWrapperPass>();
  }
  
diff --git a/llvm/lib/CodeGen/MachineUniformityAnalysis.cpp b/llvm/lib/CodeGen/MachineUniformityAnalysis.cpp

index 0c44cd4..ef67bae 100644 (file)
--- a/llvm/lib/CodeGen/MachineUniformityAnalysis.cpp
+++ b/llvm/lib/CodeGen/MachineUniformityAnalysis.cpp
@@ -113,6 +113,26 @@ bool llvm::GenericUniformityAnalysisImpl<MachineSSAContext>::usesValueFromCycle(
    return false;
  }
  
+template <>
+bool llvm::GenericUniformityAnalysisImpl<MachineSSAContext>::isDivergentUse(
+    const MachineOperand &U) const {
+  if (!U.isReg())
+    return false;
+
+  auto Reg = U.getReg();
+  if (isDivergent(Reg))
+    return true;
+
+  const auto &RegInfo = F.getRegInfo();
+  auto *Def = RegInfo.getOneDef(Reg);
+  if (!Def)
+    return true;
+
+  auto *DefInstr = Def->getParent();
+  auto *UseInstr = U.getParent();
+  return isTemporalDivergent(*UseInstr->getParent(), *DefInstr);
+}
+
  // This ensures explicit instantiation of
  // GenericUniformityAnalysisImpl::ImplDeleter::operator()
  template class llvm::GenericUniformityInfo<MachineSSAContext>;
diff --git a/llvm/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp b/llvm/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp

index 28967bb..e4ecfc7 100644 (file)
--- a/llvm/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp
+++ b/llvm/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp
@@ -15,7 +15,7 @@
  
  #include "AMDGPU.h"
  #include "GCNSubtarget.h"
-#include "llvm/Analysis/LegacyDivergenceAnalysis.h"
+#include "llvm/Analysis/UniformityAnalysis.h"
  #include "llvm/CodeGen/TargetPassConfig.h"
  #include "llvm/IR/IRBuilder.h"
  #include "llvm/IR/InstVisitor.h"
@@ -42,7 +42,7 @@ class AMDGPUAtomicOptimizer : public FunctionPass,
                                public InstVisitor<AMDGPUAtomicOptimizer> {
  private:
    SmallVector<ReplacementInfo, 8> ToReplace;
-  const LegacyDivergenceAnalysis *DA;
+  const UniformityInfo *UA;
    const DataLayout *DL;
    DominatorTree *DT;
    const GCNSubtarget *ST;
@@ -65,7 +65,7 @@ public:
  
    void getAnalysisUsage(AnalysisUsage &AU) const override {
      AU.addPreserved<DominatorTreeWrapperPass>();
-    AU.addRequired<LegacyDivergenceAnalysis>();
+    AU.addRequired<UniformityInfoWrapperPass>();
      AU.addRequired<TargetPassConfig>();
    }
  
@@ -84,7 +84,7 @@ bool AMDGPUAtomicOptimizer::runOnFunction(Function &F) {
      return false;
    }
  
-  DA = &getAnalysis<LegacyDivergenceAnalysis>();
+  UA = &getAnalysis<UniformityInfoWrapperPass>().getUniformityInfo();
    DL = &F.getParent()->getDataLayout();
    DominatorTreeWrapperPass *const DTW =
        getAnalysisIfAvailable<DominatorTreeWrapperPass>();
@@ -139,11 +139,11 @@ void AMDGPUAtomicOptimizer::visitAtomicRMWInst(AtomicRMWInst &I) {
  
    // If the pointer operand is divergent, then each lane is doing an atomic
    // operation on a different address, and we cannot optimize that.
-  if (DA->isDivergentUse(&I.getOperandUse(PtrIdx))) {
+  if (UA->isDivergentUse(I.getOperandUse(PtrIdx))) {
      return;
    }
  
-  const bool ValDivergent = DA->isDivergentUse(&I.getOperandUse(ValIdx));
+  const bool ValDivergent = UA->isDivergentUse(I.getOperandUse(ValIdx));
  
    // If the value operand is divergent, each lane is contributing a different
    // value to the atomic calculation. We can only optimize divergent values if
@@ -217,7 +217,7 @@ void AMDGPUAtomicOptimizer::visitIntrinsicInst(IntrinsicInst &I) {
  
    const unsigned ValIdx = 0;
  
-  const bool ValDivergent = DA->isDivergentUse(&I.getOperandUse(ValIdx));
+  const bool ValDivergent = UA->isDivergentUse(I.getOperandUse(ValIdx));
  
    // If the value operand is divergent, each lane is contributing a different
    // value to the atomic calculation. We can only optimize divergent values if
@@ -231,7 +231,7 @@ void AMDGPUAtomicOptimizer::visitIntrinsicInst(IntrinsicInst &I) {
    // If any of the other arguments to the intrinsic are divergent, we can't
    // optimize the operation.
    for (unsigned Idx = 1; Idx < I.getNumOperands(); Idx++) {
-    if (DA->isDivergentUse(&I.getOperandUse(Idx))) {
+    if (UA->isDivergentUse(I.getOperandUse(Idx))) {
        return;
      }
    }
@@ -705,7 +705,7 @@ void AMDGPUAtomicOptimizer::optimizeAtomic(Instruction &I,
  
  INITIALIZE_PASS_BEGIN(AMDGPUAtomicOptimizer, DEBUG_TYPE,
                        "AMDGPU atomic optimizations", false, false)
-INITIALIZE_PASS_DEPENDENCY(LegacyDivergenceAnalysis)
+INITIALIZE_PASS_DEPENDENCY(UniformityInfoWrapperPass)
  INITIALIZE_PASS_DEPENDENCY(TargetPassConfig)
  INITIALIZE_PASS_END(AMDGPUAtomicOptimizer, DEBUG_TYPE,
                      "AMDGPU atomic optimizations", false, false)
diff --git a/llvm/test/CodeGen/AMDGPU/divergence-at-use.ll b/llvm/test/CodeGen/AMDGPU/divergence-at-use.ll

index 1771c00..0c3470b 100644 (file)
--- a/llvm/test/CodeGen/AMDGPU/divergence-at-use.ll
+++ b/llvm/test/CodeGen/AMDGPU/divergence-at-use.ll
@@ -1,5 +1,4 @@
  ; RUN: llc -march=amdgcn -mcpu=gfx900 -amdgpu-atomic-optimizations=true < %s | FileCheck %s
-; RUN: llc -march=amdgcn -mcpu=gfx900 -amdgpu-atomic-optimizations=true < %s -use-gpu-divergence-analysis | FileCheck %s
  
  @local = addrspace(3) global i32 undef
  
@@ -20,4 +19,26 @@ exit:
    ret void
  }
  
+define amdgpu_kernel void @def_in_nested_cycle() {
+; CHECK-LABEL: def_in_nested_cycle:
+; CHECK-NOT: dpp
+entry:
+  %x = call i32 @llvm.amdgcn.workitem.id.x()
+  br label %loop
+loop:
+  %i = phi i32 [ 0, %entry ], [ 0, %innerloop ], [ %i1, %loop ]
+  %cond = icmp ult i32 %i, %x
+  %i1 = add i32 %i, 1
+  br i1 %cond, label %innerloop, label %loop
+innerloop:
+  %i.inner = phi i32 [ 0, %loop ], [ %i1.inner, %innerloop ]
+  %gep = getelementptr i32, ptr addrspace(3) @local, i32 %i
+  %i1.inner = add i32 %i, 1
+  %cond.inner = icmp ult i32 %i, %x
+  br i1 %cond, label %innerloop, label %loop
+exit:
+  %old = atomicrmw add ptr addrspace(3) %gep, i32 %x acq_rel
+  ret void
+}
+
  declare i32 @llvm.amdgcn.workitem.id.x()
author	pvanhout <pierre.vanhoutryve@amd.com>
	Tue, 14 Mar 2023 07:46:05 +0000 (08:46 +0100)
committer	pvanhout <pierre.vanhoutryve@amd.com>
	Wed, 15 Mar 2023 08:39:55 +0000 (09:39 +0100)
llvm/include/llvm/ADT/GenericSSAContext.h		patch \| blob \| history
llvm/include/llvm/ADT/GenericUniformityImpl.h		patch \| blob \| history
llvm/include/llvm/ADT/GenericUniformityInfo.h		patch \| blob \| history
llvm/include/llvm/CodeGen/MachineSSAContext.h		patch \| blob \| history
llvm/include/llvm/IR/SSAContext.h		patch \| blob \| history
llvm/lib/Analysis/UniformityAnalysis.cpp		patch \| blob \| history
llvm/lib/CodeGen/MachineUniformityAnalysis.cpp		patch \| blob \| history
llvm/lib/Target/AMDGPU/AMDGPUAtomicOptimizer.cpp		patch \| blob \| history
llvm/test/CodeGen/AMDGPU/divergence-at-use.ll		patch \| blob \| history