[VectorCombine] try to form vector compare and binop to eliminate scalar ops
authorSanjay Patel <spatel@rotateright.com>
Mon, 29 Jun 2020 14:29:59 +0000 (10:29 -0400)
committerSanjay Patel <spatel@rotateright.com>
Mon, 29 Jun 2020 14:38:52 +0000 (10:38 -0400)
commitb6315aee5b420aa5a0be5f1ea86c3c963760a3f2
tree6bce76a8403dcacd6af62303eece779e0fe8271a
parent67ecd7e296d1beabeaf96f984f0f592b22728633
[VectorCombine] try to form vector compare and binop to eliminate scalar ops

binop i1 (cmp Pred (ext X, Index0), C0), (cmp Pred (ext X, Index1), C1)
-->
vcmp = cmp Pred X, VecC
ext (binop vNi1 vcmp, (shuffle vcmp, Index1)), Index0

This is a larger pattern than the existing extractelement folds because we can't
reasonably vectorize the sub-patterns with constants based on cost model calcs
(it doesn't usually make sense to replace a single extracted scalar op with
constant operand with a vector op).

I salvaged as much of the existing logic as I could, but there might be better
ways to share and reduce code.

The motivating case from PR43745:
https://bugs.llvm.org/show_bug.cgi?id=43745
...is the special case of a 2-way reduction. We tried to get SLP to handle that
particular pattern in D59710, but that caused crashing and regressions.
This patch is more general, but hopefully safer.

The v2f64 test with SSE2 surprised me - the cost model accounting looks like this:
OldCost = 0 (free extract of f64 at index 0) + 1 (extract of f64 at index 1) + 2 (scalar fcmps) + 1 (and of bools) = 4
NewCost = 2 (vector fcmp) + 1 (shuffle) + 1 (vector 'and') + 1 (extract of bool) = 5

Differential Revision: https://reviews.llvm.org/D82474
llvm/lib/Transforms/Vectorize/VectorCombine.cpp
llvm/test/Transforms/PhaseOrdering/X86/vector-reductions.ll
llvm/test/Transforms/VectorCombine/X86/extract-cmp-binop.ll