review.tizen.org Git - platform/upstream/llvm.git/commit

author	Simon Pilgrim <llvm-dev@redking.me.uk>
	Wed, 21 Dec 2016 20:00:10 +0000 (20:00 +0000)
committer	Simon Pilgrim <llvm-dev@redking.me.uk>
	Wed, 21 Dec 2016 20:00:10 +0000 (20:00 +0000)
commit	081abbb164cceea0ff5b70d1557f2cf31198f5b9
tree	9b712808d6be653cbd6b052d85fa932a9714d3c7	tree \| snapshot
parent	b0761a0c1ba8ec77d3704d2450d481bc25e60a9d	commit \| diff

[X86][SSE] Improve lowering of vXi64 multiplies

As mentioned on PR30845, we were performing our vXi64 multiplication as:

AloBlo = pmuludq(a, b);
AloBhi = pmuludq(a, psrlqi(b, 32));
AhiBlo = pmuludq(psrlqi(a, 32), b);
return AloBlo + psllqi(AloBhi, 32)+ psllqi(AhiBlo, 32);

when we could avoid one of the upper shifts with:

AloBlo = pmuludq(a, b);
AloBhi = pmuludq(a, psrlqi(b, 32));
AhiBlo = pmuludq(psrlqi(a, 32), b);
return AloBlo + psllqi(AloBhi + AhiBlo, 32);

This matches the lowering on gcc/icc.

Differential Revision: https://reviews.llvm.org/D27756

llvm-svn: 290267

llvm/lib/Target/X86/X86ISelLowering.cpp		diff \| blob \| history
llvm/lib/Target/X86/X86TargetTransformInfo.cpp		diff \| blob \| history
llvm/test/Analysis/CostModel/X86/arith.ll		diff \| blob \| history
llvm/test/CodeGen/X86/avx-arith.ll		diff \| blob \| history
llvm/test/CodeGen/X86/avx512-arith.ll		diff \| blob \| history
llvm/test/CodeGen/X86/combine-mul.ll		diff \| blob \| history
llvm/test/CodeGen/X86/pmul.ll		diff \| blob \| history
llvm/test/CodeGen/X86/shrink_vmul.ll		diff \| blob \| history
llvm/test/CodeGen/X86/vector-trunc-math.ll		diff \| blob \| history