From d3188c7f14573d89a966b6194d927de2689e1d9a Mon Sep 17 00:00:00 2001 From: Simon Pilgrim Date: Wed, 8 Feb 2023 09:47:13 +0000 Subject: [PATCH] [X86] Add ISD::ABDS/ABDU vXi64 support on SSE41+ targets If IMINMAX ops aren't legal, we can lower to the select(icmp(x,y),sub(x,y),sub(y,x)) pattern --- llvm/lib/Target/X86/X86ISelLowering.cpp | 45 +- llvm/test/CodeGen/X86/abds-vector-128.ll | 207 ++----- llvm/test/CodeGen/X86/abds-vector-256.ll | 318 ++-------- llvm/test/CodeGen/X86/abdu-vector-128.ll | 213 +++---- llvm/test/CodeGen/X86/abdu-vector-256.ll | 255 +++----- llvm/test/CodeGen/X86/midpoint-int-vec-128.ll | 407 ++++++------- llvm/test/CodeGen/X86/midpoint-int-vec-256.ll | 827 +++++++++++++------------- 7 files changed, 847 insertions(+), 1425 deletions(-) diff --git a/llvm/lib/Target/X86/X86ISelLowering.cpp b/llvm/lib/Target/X86/X86ISelLowering.cpp index c53e346..55110e6 100644 --- a/llvm/lib/Target/X86/X86ISelLowering.cpp +++ b/llvm/lib/Target/X86/X86ISelLowering.cpp @@ -1256,7 +1256,7 @@ X86TargetLowering::X86TargetLowering(const X86TargetMachine &TM, setOperationAction(ISD::UMIN, MVT::v8i16, Legal); setOperationAction(ISD::UMIN, MVT::v4i32, Legal); - for (auto VT : {MVT::v16i8, MVT::v8i16, MVT::v4i32}) { + for (auto VT : {MVT::v16i8, MVT::v8i16, MVT::v4i32, MVT::v2i64}) { setOperationAction(ISD::ABDS, VT, Custom); setOperationAction(ISD::ABDU, VT, Custom); } @@ -1396,14 +1396,16 @@ X86TargetLowering::X86TargetLowering(const X86TargetMachine &TM, // In the customized shift lowering, the legal v8i32/v4i64 cases // in AVX2 will be recognized. for (auto VT : { MVT::v32i8, MVT::v16i16, MVT::v8i32, MVT::v4i64 }) { - setOperationAction(ISD::SRL, VT, Custom); - setOperationAction(ISD::SHL, VT, Custom); - setOperationAction(ISD::SRA, VT, Custom); + setOperationAction(ISD::SRL, VT, Custom); + setOperationAction(ISD::SHL, VT, Custom); + setOperationAction(ISD::SRA, VT, Custom); + setOperationAction(ISD::ABDS, VT, Custom); + setOperationAction(ISD::ABDU, VT, Custom); if (VT == MVT::v4i64) continue; - setOperationAction(ISD::ROTL, VT, Custom); - setOperationAction(ISD::ROTR, VT, Custom); - setOperationAction(ISD::FSHL, VT, Custom); - setOperationAction(ISD::FSHR, VT, Custom); + setOperationAction(ISD::ROTL, VT, Custom); + setOperationAction(ISD::ROTR, VT, Custom); + setOperationAction(ISD::FSHL, VT, Custom); + setOperationAction(ISD::FSHR, VT, Custom); } // These types need custom splitting if their input is a 128-bit vector. @@ -1499,8 +1501,6 @@ X86TargetLowering::X86TargetLowering(const X86TargetMachine &TM, setOperationAction(ISD::UMAX, VT, HasInt256 ? Legal : Custom); setOperationAction(ISD::SMIN, VT, HasInt256 ? Legal : Custom); setOperationAction(ISD::UMIN, VT, HasInt256 ? Legal : Custom); - setOperationAction(ISD::ABDS, VT, Custom); - setOperationAction(ISD::ABDU, VT, Custom); } for (auto VT : {MVT::v16i16, MVT::v8i32, MVT::v4i64}) { @@ -1968,8 +1968,6 @@ X86TargetLowering::X86TargetLowering(const X86TargetMachine &TM, setOperationAction(ISD::SMIN, VT, Legal); setOperationAction(ISD::UMIN, VT, Legal); setOperationAction(ISD::ABS, VT, Legal); - setOperationAction(ISD::ABDS, VT, Custom); - setOperationAction(ISD::ABDU, VT, Custom); } for (auto VT : { MVT::v4i32, MVT::v8i32, MVT::v2i64, MVT::v4i64 }) { @@ -29659,15 +29657,30 @@ static SDValue LowerABD(SDValue Op, const X86Subtarget &Subtarget, if ((VT == MVT::v32i16 || VT == MVT::v64i8) && !Subtarget.useBWIRegs()) return splitVectorIntBinary(Op, DAG); - // Default to expand: sub(smax(lhs,rhs),smin(lhs,rhs)) // TODO: Add TargetLowering expandABD() support. SDLoc dl(Op); bool IsSigned = Op.getOpcode() == ISD::ABDS; SDValue LHS = DAG.getFreeze(Op.getOperand(0)); SDValue RHS = DAG.getFreeze(Op.getOperand(1)); - SDValue Max = DAG.getNode(IsSigned ? ISD::SMAX : ISD::UMAX, dl, VT, LHS, RHS); - SDValue Min = DAG.getNode(IsSigned ? ISD::SMIN : ISD::UMIN, dl, VT, LHS, RHS); - return DAG.getNode(ISD::SUB, dl, VT, Max, Min); + const TargetLowering &TLI = DAG.getTargetLoweringInfo(); + + // abds(lhs, rhs) -> sub(smax(lhs,rhs), smin(lhs,rhs)) + // abdu(lhs, rhs) -> sub(umax(lhs,rhs), umin(lhs,rhs)) + unsigned MaxOpc = IsSigned ? ISD::SMAX : ISD::UMAX; + unsigned MinOpc = IsSigned ? ISD::SMIN : ISD::UMIN; + if (TLI.isOperationLegal(MaxOpc, VT) && TLI.isOperationLegal(MinOpc, VT)) { + SDValue Max = DAG.getNode(MaxOpc, dl, VT, LHS, RHS); + SDValue Min = DAG.getNode(MinOpc, dl, VT, LHS, RHS); + return DAG.getNode(ISD::SUB, dl, VT, Max, Min); + } + + // abds(lhs, rhs) -> select(sgt(lhs,rhs), sub(lhs,rhs), sub(rhs,lhs)) + // abdu(lhs, rhs) -> select(ugt(lhs,rhs), sub(lhs,rhs), sub(rhs,lhs)) + EVT CCVT = TLI.getSetCCResultType(DAG.getDataLayout(), *DAG.getContext(), VT); + ISD::CondCode CC = IsSigned ? ISD::CondCode::SETGT : ISD::CondCode::SETUGT; + SDValue Cmp = DAG.getSetCC(dl, CCVT, LHS, RHS, CC); + return DAG.getSelect(dl, VT, Cmp, DAG.getNode(ISD::SUB, dl, VT, LHS, RHS), + DAG.getNode(ISD::SUB, dl, VT, RHS, LHS)); } static SDValue LowerMUL(SDValue Op, const X86Subtarget &Subtarget, diff --git a/llvm/test/CodeGen/X86/abds-vector-128.ll b/llvm/test/CodeGen/X86/abds-vector-128.ll index 6b2d56a..1b493fe 100644 --- a/llvm/test/CodeGen/X86/abds-vector-128.ll +++ b/llvm/test/CodeGen/X86/abds-vector-128.ll @@ -501,89 +501,30 @@ define <2 x i64> @abd_ext_v2i64(<2 x i64> %a, <2 x i64> %b) nounwind { ; ; SSE42-LABEL: abd_ext_v2i64: ; SSE42: # %bb.0: -; SSE42-NEXT: movq %xmm0, %rax -; SSE42-NEXT: movq %rax, %rcx -; SSE42-NEXT: sarq $63, %rcx -; SSE42-NEXT: pextrq $1, %xmm0, %rdx -; SSE42-NEXT: movq %rdx, %rsi -; SSE42-NEXT: sarq $63, %rsi -; SSE42-NEXT: movq %xmm1, %rdi -; SSE42-NEXT: movq %rdi, %r8 -; SSE42-NEXT: sarq $63, %r8 -; SSE42-NEXT: pextrq $1, %xmm1, %r9 -; SSE42-NEXT: movq %r9, %r10 -; SSE42-NEXT: sarq $63, %r10 -; SSE42-NEXT: subq %r9, %rdx -; SSE42-NEXT: sbbq %r10, %rsi -; SSE42-NEXT: subq %rdi, %rax -; SSE42-NEXT: sbbq %r8, %rcx -; SSE42-NEXT: sarq $63, %rcx -; SSE42-NEXT: xorq %rcx, %rax -; SSE42-NEXT: subq %rcx, %rax -; SSE42-NEXT: sarq $63, %rsi -; SSE42-NEXT: xorq %rsi, %rdx -; SSE42-NEXT: subq %rsi, %rdx -; SSE42-NEXT: movq %rdx, %xmm1 -; SSE42-NEXT: movq %rax, %xmm0 -; SSE42-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0] +; SSE42-NEXT: movdqa %xmm0, %xmm2 +; SSE42-NEXT: pcmpgtq %xmm1, %xmm2 +; SSE42-NEXT: movdqa %xmm0, %xmm3 +; SSE42-NEXT: psubq %xmm1, %xmm3 +; SSE42-NEXT: psubq %xmm0, %xmm1 +; SSE42-NEXT: movdqa %xmm2, %xmm0 +; SSE42-NEXT: blendvpd %xmm0, %xmm3, %xmm1 +; SSE42-NEXT: movapd %xmm1, %xmm0 ; SSE42-NEXT: retq ; ; AVX1-LABEL: abd_ext_v2i64: ; AVX1: # %bb.0: -; AVX1-NEXT: vmovq %xmm0, %rax -; AVX1-NEXT: movq %rax, %rcx -; AVX1-NEXT: sarq $63, %rcx -; AVX1-NEXT: vpextrq $1, %xmm0, %rdx -; AVX1-NEXT: movq %rdx, %rsi -; AVX1-NEXT: sarq $63, %rsi -; AVX1-NEXT: vmovq %xmm1, %rdi -; AVX1-NEXT: movq %rdi, %r8 -; AVX1-NEXT: sarq $63, %r8 -; AVX1-NEXT: vpextrq $1, %xmm1, %r9 -; AVX1-NEXT: movq %r9, %r10 -; AVX1-NEXT: sarq $63, %r10 -; AVX1-NEXT: subq %r9, %rdx -; AVX1-NEXT: sbbq %r10, %rsi -; AVX1-NEXT: subq %rdi, %rax -; AVX1-NEXT: sbbq %r8, %rcx -; AVX1-NEXT: sarq $63, %rcx -; AVX1-NEXT: xorq %rcx, %rax -; AVX1-NEXT: subq %rcx, %rax -; AVX1-NEXT: sarq $63, %rsi -; AVX1-NEXT: xorq %rsi, %rdx -; AVX1-NEXT: subq %rsi, %rdx -; AVX1-NEXT: vmovq %rdx, %xmm0 -; AVX1-NEXT: vmovq %rax, %xmm1 -; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0] +; AVX1-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2 +; AVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm3 +; AVX1-NEXT: vpsubq %xmm0, %xmm1, %xmm0 +; AVX1-NEXT: vblendvpd %xmm2, %xmm3, %xmm0, %xmm0 ; AVX1-NEXT: retq ; ; AVX2-LABEL: abd_ext_v2i64: ; AVX2: # %bb.0: -; AVX2-NEXT: vmovq %xmm0, %rax -; AVX2-NEXT: movq %rax, %rcx -; AVX2-NEXT: sarq $63, %rcx -; AVX2-NEXT: vpextrq $1, %xmm0, %rdx -; AVX2-NEXT: movq %rdx, %rsi -; AVX2-NEXT: sarq $63, %rsi -; AVX2-NEXT: vmovq %xmm1, %rdi -; AVX2-NEXT: movq %rdi, %r8 -; AVX2-NEXT: sarq $63, %r8 -; AVX2-NEXT: vpextrq $1, %xmm1, %r9 -; AVX2-NEXT: movq %r9, %r10 -; AVX2-NEXT: sarq $63, %r10 -; AVX2-NEXT: subq %r9, %rdx -; AVX2-NEXT: sbbq %r10, %rsi -; AVX2-NEXT: subq %rdi, %rax -; AVX2-NEXT: sbbq %r8, %rcx -; AVX2-NEXT: sarq $63, %rcx -; AVX2-NEXT: xorq %rcx, %rax -; AVX2-NEXT: subq %rcx, %rax -; AVX2-NEXT: sarq $63, %rsi -; AVX2-NEXT: xorq %rsi, %rdx -; AVX2-NEXT: subq %rsi, %rdx -; AVX2-NEXT: vmovq %rdx, %xmm0 -; AVX2-NEXT: vmovq %rax, %xmm1 -; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0] +; AVX2-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2 +; AVX2-NEXT: vpsubq %xmm1, %xmm0, %xmm3 +; AVX2-NEXT: vpsubq %xmm0, %xmm1, %xmm0 +; AVX2-NEXT: vblendvpd %xmm2, %xmm3, %xmm0, %xmm0 ; AVX2-NEXT: retq ; ; AVX512-LABEL: abd_ext_v2i64: @@ -634,89 +575,30 @@ define <2 x i64> @abd_ext_v2i64_undef(<2 x i64> %a, <2 x i64> %b) nounwind { ; ; SSE42-LABEL: abd_ext_v2i64_undef: ; SSE42: # %bb.0: -; SSE42-NEXT: movq %xmm0, %rax -; SSE42-NEXT: movq %rax, %rcx -; SSE42-NEXT: sarq $63, %rcx -; SSE42-NEXT: pextrq $1, %xmm0, %rdx -; SSE42-NEXT: movq %rdx, %rsi -; SSE42-NEXT: sarq $63, %rsi -; SSE42-NEXT: movq %xmm1, %rdi -; SSE42-NEXT: movq %rdi, %r8 -; SSE42-NEXT: sarq $63, %r8 -; SSE42-NEXT: pextrq $1, %xmm1, %r9 -; SSE42-NEXT: movq %r9, %r10 -; SSE42-NEXT: sarq $63, %r10 -; SSE42-NEXT: subq %r9, %rdx -; SSE42-NEXT: sbbq %r10, %rsi -; SSE42-NEXT: subq %rdi, %rax -; SSE42-NEXT: sbbq %r8, %rcx -; SSE42-NEXT: sarq $63, %rcx -; SSE42-NEXT: xorq %rcx, %rax -; SSE42-NEXT: subq %rcx, %rax -; SSE42-NEXT: sarq $63, %rsi -; SSE42-NEXT: xorq %rsi, %rdx -; SSE42-NEXT: subq %rsi, %rdx -; SSE42-NEXT: movq %rdx, %xmm1 -; SSE42-NEXT: movq %rax, %xmm0 -; SSE42-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0] +; SSE42-NEXT: movdqa %xmm0, %xmm2 +; SSE42-NEXT: pcmpgtq %xmm1, %xmm2 +; SSE42-NEXT: movdqa %xmm0, %xmm3 +; SSE42-NEXT: psubq %xmm1, %xmm3 +; SSE42-NEXT: psubq %xmm0, %xmm1 +; SSE42-NEXT: movdqa %xmm2, %xmm0 +; SSE42-NEXT: blendvpd %xmm0, %xmm3, %xmm1 +; SSE42-NEXT: movapd %xmm1, %xmm0 ; SSE42-NEXT: retq ; ; AVX1-LABEL: abd_ext_v2i64_undef: ; AVX1: # %bb.0: -; AVX1-NEXT: vmovq %xmm0, %rax -; AVX1-NEXT: movq %rax, %rcx -; AVX1-NEXT: sarq $63, %rcx -; AVX1-NEXT: vpextrq $1, %xmm0, %rdx -; AVX1-NEXT: movq %rdx, %rsi -; AVX1-NEXT: sarq $63, %rsi -; AVX1-NEXT: vmovq %xmm1, %rdi -; AVX1-NEXT: movq %rdi, %r8 -; AVX1-NEXT: sarq $63, %r8 -; AVX1-NEXT: vpextrq $1, %xmm1, %r9 -; AVX1-NEXT: movq %r9, %r10 -; AVX1-NEXT: sarq $63, %r10 -; AVX1-NEXT: subq %r9, %rdx -; AVX1-NEXT: sbbq %r10, %rsi -; AVX1-NEXT: subq %rdi, %rax -; AVX1-NEXT: sbbq %r8, %rcx -; AVX1-NEXT: sarq $63, %rcx -; AVX1-NEXT: xorq %rcx, %rax -; AVX1-NEXT: subq %rcx, %rax -; AVX1-NEXT: sarq $63, %rsi -; AVX1-NEXT: xorq %rsi, %rdx -; AVX1-NEXT: subq %rsi, %rdx -; AVX1-NEXT: vmovq %rdx, %xmm0 -; AVX1-NEXT: vmovq %rax, %xmm1 -; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0] +; AVX1-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2 +; AVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm3 +; AVX1-NEXT: vpsubq %xmm0, %xmm1, %xmm0 +; AVX1-NEXT: vblendvpd %xmm2, %xmm3, %xmm0, %xmm0 ; AVX1-NEXT: retq ; ; AVX2-LABEL: abd_ext_v2i64_undef: ; AVX2: # %bb.0: -; AVX2-NEXT: vmovq %xmm0, %rax -; AVX2-NEXT: movq %rax, %rcx -; AVX2-NEXT: sarq $63, %rcx -; AVX2-NEXT: vpextrq $1, %xmm0, %rdx -; AVX2-NEXT: movq %rdx, %rsi -; AVX2-NEXT: sarq $63, %rsi -; AVX2-NEXT: vmovq %xmm1, %rdi -; AVX2-NEXT: movq %rdi, %r8 -; AVX2-NEXT: sarq $63, %r8 -; AVX2-NEXT: vpextrq $1, %xmm1, %r9 -; AVX2-NEXT: movq %r9, %r10 -; AVX2-NEXT: sarq $63, %r10 -; AVX2-NEXT: subq %r9, %rdx -; AVX2-NEXT: sbbq %r10, %rsi -; AVX2-NEXT: subq %rdi, %rax -; AVX2-NEXT: sbbq %r8, %rcx -; AVX2-NEXT: sarq $63, %rcx -; AVX2-NEXT: xorq %rcx, %rax -; AVX2-NEXT: subq %rcx, %rax -; AVX2-NEXT: sarq $63, %rsi -; AVX2-NEXT: xorq %rsi, %rdx -; AVX2-NEXT: subq %rsi, %rdx -; AVX2-NEXT: vmovq %rdx, %xmm0 -; AVX2-NEXT: vmovq %rax, %xmm1 -; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0] +; AVX2-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2 +; AVX2-NEXT: vpsubq %xmm1, %xmm0, %xmm3 +; AVX2-NEXT: vpsubq %xmm0, %xmm1, %xmm0 +; AVX2-NEXT: vblendvpd %xmm2, %xmm3, %xmm0, %xmm0 ; AVX2-NEXT: retq ; ; AVX512-LABEL: abd_ext_v2i64_undef: @@ -866,28 +748,29 @@ define <2 x i64> @abd_minmax_v2i64(<2 x i64> %a, <2 x i64> %b) nounwind { ; SSE42-LABEL: abd_minmax_v2i64: ; SSE42: # %bb.0: ; SSE42-NEXT: movdqa %xmm0, %xmm2 -; SSE42-NEXT: pcmpgtq %xmm1, %xmm0 -; SSE42-NEXT: movdqa %xmm2, %xmm3 -; SSE42-NEXT: blendvpd %xmm0, %xmm1, %xmm3 -; SSE42-NEXT: blendvpd %xmm0, %xmm2, %xmm1 -; SSE42-NEXT: psubq %xmm3, %xmm1 -; SSE42-NEXT: movdqa %xmm1, %xmm0 +; SSE42-NEXT: pcmpgtq %xmm1, %xmm2 +; SSE42-NEXT: movdqa %xmm0, %xmm3 +; SSE42-NEXT: psubq %xmm1, %xmm3 +; SSE42-NEXT: psubq %xmm0, %xmm1 +; SSE42-NEXT: movdqa %xmm2, %xmm0 +; SSE42-NEXT: blendvpd %xmm0, %xmm3, %xmm1 +; SSE42-NEXT: movapd %xmm1, %xmm0 ; SSE42-NEXT: retq ; ; AVX1-LABEL: abd_minmax_v2i64: ; AVX1: # %bb.0: ; AVX1-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2 -; AVX1-NEXT: vblendvpd %xmm2, %xmm1, %xmm0, %xmm3 -; AVX1-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0 -; AVX1-NEXT: vpsubq %xmm3, %xmm0, %xmm0 +; AVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm3 +; AVX1-NEXT: vpsubq %xmm0, %xmm1, %xmm0 +; AVX1-NEXT: vblendvpd %xmm2, %xmm3, %xmm0, %xmm0 ; AVX1-NEXT: retq ; ; AVX2-LABEL: abd_minmax_v2i64: ; AVX2: # %bb.0: ; AVX2-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2 -; AVX2-NEXT: vblendvpd %xmm2, %xmm1, %xmm0, %xmm3 -; AVX2-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0 -; AVX2-NEXT: vpsubq %xmm3, %xmm0, %xmm0 +; AVX2-NEXT: vpsubq %xmm1, %xmm0, %xmm3 +; AVX2-NEXT: vpsubq %xmm0, %xmm1, %xmm0 +; AVX2-NEXT: vblendvpd %xmm2, %xmm3, %xmm0, %xmm0 ; AVX2-NEXT: retq ; ; AVX512-LABEL: abd_minmax_v2i64: diff --git a/llvm/test/CodeGen/X86/abds-vector-256.ll b/llvm/test/CodeGen/X86/abds-vector-256.ll index afb2107..e4f4dc4 100644 --- a/llvm/test/CodeGen/X86/abds-vector-256.ll +++ b/llvm/test/CodeGen/X86/abds-vector-256.ll @@ -220,140 +220,25 @@ define <8 x i32> @abd_ext_v8i32_undef(<8 x i32> %a, <8 x i32> %b) nounwind { define <4 x i64> @abd_ext_v4i64(<4 x i64> %a, <4 x i64> %b) nounwind { ; AVX1-LABEL: abd_ext_v4i64: ; AVX1: # %bb.0: -; AVX1-NEXT: pushq %rbp -; AVX1-NEXT: pushq %r15 -; AVX1-NEXT: pushq %r14 -; AVX1-NEXT: pushq %r13 -; AVX1-NEXT: pushq %r12 -; AVX1-NEXT: pushq %rbx -; AVX1-NEXT: vmovq %xmm0, %r11 -; AVX1-NEXT: movq %r11, %r10 -; AVX1-NEXT: sarq $63, %r10 -; AVX1-NEXT: vpextrq $1, %xmm0, %rcx -; AVX1-NEXT: movq %rcx, %r9 -; AVX1-NEXT: sarq $63, %r9 -; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0 -; AVX1-NEXT: vmovq %xmm0, %rdx -; AVX1-NEXT: movq %rdx, %r8 -; AVX1-NEXT: sarq $63, %r8 -; AVX1-NEXT: vpextrq $1, %xmm0, %rsi -; AVX1-NEXT: movq %rsi, %rdi -; AVX1-NEXT: sarq $63, %rdi -; AVX1-NEXT: vmovq %xmm1, %rbx -; AVX1-NEXT: movq %rbx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill -; AVX1-NEXT: sarq $63, %rbx -; AVX1-NEXT: vpextrq $1, %xmm1, %r14 -; AVX1-NEXT: movq %r14, %r15 -; AVX1-NEXT: sarq $63, %r15 -; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm0 -; AVX1-NEXT: vmovq %xmm0, %r12 -; AVX1-NEXT: movq %r12, %r13 -; AVX1-NEXT: sarq $63, %r13 -; AVX1-NEXT: vpextrq $1, %xmm0, %rax -; AVX1-NEXT: movq %rax, %rbp -; AVX1-NEXT: sarq $63, %rbp -; AVX1-NEXT: subq %rax, %rsi -; AVX1-NEXT: sbbq %rbp, %rdi -; AVX1-NEXT: subq %r12, %rdx -; AVX1-NEXT: sbbq %r13, %r8 -; AVX1-NEXT: subq %r14, %rcx -; AVX1-NEXT: sbbq %r15, %r9 -; AVX1-NEXT: subq {{[-0-9]+}}(%r{{[sb]}}p), %r11 # 8-byte Folded Reload -; AVX1-NEXT: sbbq %rbx, %r10 -; AVX1-NEXT: sarq $63, %r10 -; AVX1-NEXT: xorq %r10, %r11 -; AVX1-NEXT: subq %r10, %r11 -; AVX1-NEXT: sarq $63, %r9 -; AVX1-NEXT: xorq %r9, %rcx -; AVX1-NEXT: subq %r9, %rcx -; AVX1-NEXT: sarq $63, %r8 -; AVX1-NEXT: xorq %r8, %rdx -; AVX1-NEXT: subq %r8, %rdx -; AVX1-NEXT: sarq $63, %rdi -; AVX1-NEXT: xorq %rdi, %rsi -; AVX1-NEXT: subq %rdi, %rsi -; AVX1-NEXT: vmovq %rsi, %xmm0 -; AVX1-NEXT: vmovq %rdx, %xmm1 -; AVX1-NEXT: vmovq %rcx, %xmm2 -; AVX1-NEXT: vmovq %r11, %xmm3 -; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0] -; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm3[0],xmm2[0] -; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0 -; AVX1-NEXT: popq %rbx -; AVX1-NEXT: popq %r12 -; AVX1-NEXT: popq %r13 -; AVX1-NEXT: popq %r14 -; AVX1-NEXT: popq %r15 -; AVX1-NEXT: popq %rbp +; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2 +; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3 +; AVX1-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm4 +; AVX1-NEXT: vpsubq %xmm2, %xmm3, %xmm5 +; AVX1-NEXT: vpsubq %xmm3, %xmm2, %xmm2 +; AVX1-NEXT: vblendvpd %xmm4, %xmm5, %xmm2, %xmm2 +; AVX1-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm3 +; AVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm4 +; AVX1-NEXT: vpsubq %xmm0, %xmm1, %xmm0 +; AVX1-NEXT: vblendvpd %xmm3, %xmm4, %xmm0, %xmm0 +; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0 ; AVX1-NEXT: retq ; ; AVX2-LABEL: abd_ext_v4i64: ; AVX2: # %bb.0: -; AVX2-NEXT: pushq %rbp -; AVX2-NEXT: pushq %r15 -; AVX2-NEXT: pushq %r14 -; AVX2-NEXT: pushq %r13 -; AVX2-NEXT: pushq %r12 -; AVX2-NEXT: pushq %rbx -; AVX2-NEXT: vmovq %xmm0, %r11 -; AVX2-NEXT: movq %r11, %r10 -; AVX2-NEXT: sarq $63, %r10 -; AVX2-NEXT: vpextrq $1, %xmm0, %rcx -; AVX2-NEXT: movq %rcx, %r9 -; AVX2-NEXT: sarq $63, %r9 -; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0 -; AVX2-NEXT: vmovq %xmm0, %rdx -; AVX2-NEXT: movq %rdx, %r8 -; AVX2-NEXT: sarq $63, %r8 -; AVX2-NEXT: vpextrq $1, %xmm0, %rsi -; AVX2-NEXT: movq %rsi, %rdi -; AVX2-NEXT: sarq $63, %rdi -; AVX2-NEXT: vmovq %xmm1, %rbx -; AVX2-NEXT: movq %rbx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill -; AVX2-NEXT: sarq $63, %rbx -; AVX2-NEXT: vpextrq $1, %xmm1, %r14 -; AVX2-NEXT: movq %r14, %r15 -; AVX2-NEXT: sarq $63, %r15 -; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm0 -; AVX2-NEXT: vmovq %xmm0, %r12 -; AVX2-NEXT: movq %r12, %r13 -; AVX2-NEXT: sarq $63, %r13 -; AVX2-NEXT: vpextrq $1, %xmm0, %rax -; AVX2-NEXT: movq %rax, %rbp -; AVX2-NEXT: sarq $63, %rbp -; AVX2-NEXT: subq %rax, %rsi -; AVX2-NEXT: sbbq %rbp, %rdi -; AVX2-NEXT: subq %r12, %rdx -; AVX2-NEXT: sbbq %r13, %r8 -; AVX2-NEXT: subq %r14, %rcx -; AVX2-NEXT: sbbq %r15, %r9 -; AVX2-NEXT: subq {{[-0-9]+}}(%r{{[sb]}}p), %r11 # 8-byte Folded Reload -; AVX2-NEXT: sbbq %rbx, %r10 -; AVX2-NEXT: sarq $63, %r10 -; AVX2-NEXT: xorq %r10, %r11 -; AVX2-NEXT: subq %r10, %r11 -; AVX2-NEXT: sarq $63, %r9 -; AVX2-NEXT: xorq %r9, %rcx -; AVX2-NEXT: subq %r9, %rcx -; AVX2-NEXT: sarq $63, %r8 -; AVX2-NEXT: xorq %r8, %rdx -; AVX2-NEXT: subq %r8, %rdx -; AVX2-NEXT: sarq $63, %rdi -; AVX2-NEXT: xorq %rdi, %rsi -; AVX2-NEXT: subq %rdi, %rsi -; AVX2-NEXT: vmovq %rsi, %xmm0 -; AVX2-NEXT: vmovq %rdx, %xmm1 -; AVX2-NEXT: vmovq %rcx, %xmm2 -; AVX2-NEXT: vmovq %r11, %xmm3 -; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0] -; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm3[0],xmm2[0] -; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0 -; AVX2-NEXT: popq %rbx -; AVX2-NEXT: popq %r12 -; AVX2-NEXT: popq %r13 -; AVX2-NEXT: popq %r14 -; AVX2-NEXT: popq %r15 -; AVX2-NEXT: popq %rbp +; AVX2-NEXT: vpcmpgtq %ymm1, %ymm0, %ymm2 +; AVX2-NEXT: vpsubq %ymm1, %ymm0, %ymm3 +; AVX2-NEXT: vpsubq %ymm0, %ymm1, %ymm0 +; AVX2-NEXT: vblendvpd %ymm2, %ymm3, %ymm0, %ymm0 ; AVX2-NEXT: retq ; ; AVX512-LABEL: abd_ext_v4i64: @@ -373,140 +258,25 @@ define <4 x i64> @abd_ext_v4i64(<4 x i64> %a, <4 x i64> %b) nounwind { define <4 x i64> @abd_ext_v4i64_undef(<4 x i64> %a, <4 x i64> %b) nounwind { ; AVX1-LABEL: abd_ext_v4i64_undef: ; AVX1: # %bb.0: -; AVX1-NEXT: pushq %rbp -; AVX1-NEXT: pushq %r15 -; AVX1-NEXT: pushq %r14 -; AVX1-NEXT: pushq %r13 -; AVX1-NEXT: pushq %r12 -; AVX1-NEXT: pushq %rbx -; AVX1-NEXT: vmovq %xmm0, %r11 -; AVX1-NEXT: movq %r11, %r10 -; AVX1-NEXT: sarq $63, %r10 -; AVX1-NEXT: vpextrq $1, %xmm0, %rcx -; AVX1-NEXT: movq %rcx, %r9 -; AVX1-NEXT: sarq $63, %r9 -; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0 -; AVX1-NEXT: vmovq %xmm0, %rdx -; AVX1-NEXT: movq %rdx, %r8 -; AVX1-NEXT: sarq $63, %r8 -; AVX1-NEXT: vpextrq $1, %xmm0, %rsi -; AVX1-NEXT: movq %rsi, %rdi -; AVX1-NEXT: sarq $63, %rdi -; AVX1-NEXT: vmovq %xmm1, %rbx -; AVX1-NEXT: movq %rbx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill -; AVX1-NEXT: sarq $63, %rbx -; AVX1-NEXT: vpextrq $1, %xmm1, %r14 -; AVX1-NEXT: movq %r14, %r15 -; AVX1-NEXT: sarq $63, %r15 -; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm0 -; AVX1-NEXT: vmovq %xmm0, %r12 -; AVX1-NEXT: movq %r12, %r13 -; AVX1-NEXT: sarq $63, %r13 -; AVX1-NEXT: vpextrq $1, %xmm0, %rax -; AVX1-NEXT: movq %rax, %rbp -; AVX1-NEXT: sarq $63, %rbp -; AVX1-NEXT: subq %rax, %rsi -; AVX1-NEXT: sbbq %rbp, %rdi -; AVX1-NEXT: subq %r12, %rdx -; AVX1-NEXT: sbbq %r13, %r8 -; AVX1-NEXT: subq %r14, %rcx -; AVX1-NEXT: sbbq %r15, %r9 -; AVX1-NEXT: subq {{[-0-9]+}}(%r{{[sb]}}p), %r11 # 8-byte Folded Reload -; AVX1-NEXT: sbbq %rbx, %r10 -; AVX1-NEXT: sarq $63, %r10 -; AVX1-NEXT: xorq %r10, %r11 -; AVX1-NEXT: subq %r10, %r11 -; AVX1-NEXT: sarq $63, %r9 -; AVX1-NEXT: xorq %r9, %rcx -; AVX1-NEXT: subq %r9, %rcx -; AVX1-NEXT: sarq $63, %r8 -; AVX1-NEXT: xorq %r8, %rdx -; AVX1-NEXT: subq %r8, %rdx -; AVX1-NEXT: sarq $63, %rdi -; AVX1-NEXT: xorq %rdi, %rsi -; AVX1-NEXT: subq %rdi, %rsi -; AVX1-NEXT: vmovq %rsi, %xmm0 -; AVX1-NEXT: vmovq %rdx, %xmm1 -; AVX1-NEXT: vmovq %rcx, %xmm2 -; AVX1-NEXT: vmovq %r11, %xmm3 -; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0] -; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm3[0],xmm2[0] -; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0 -; AVX1-NEXT: popq %rbx -; AVX1-NEXT: popq %r12 -; AVX1-NEXT: popq %r13 -; AVX1-NEXT: popq %r14 -; AVX1-NEXT: popq %r15 -; AVX1-NEXT: popq %rbp +; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2 +; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3 +; AVX1-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm4 +; AVX1-NEXT: vpsubq %xmm2, %xmm3, %xmm5 +; AVX1-NEXT: vpsubq %xmm3, %xmm2, %xmm2 +; AVX1-NEXT: vblendvpd %xmm4, %xmm5, %xmm2, %xmm2 +; AVX1-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm3 +; AVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm4 +; AVX1-NEXT: vpsubq %xmm0, %xmm1, %xmm0 +; AVX1-NEXT: vblendvpd %xmm3, %xmm4, %xmm0, %xmm0 +; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0 ; AVX1-NEXT: retq ; ; AVX2-LABEL: abd_ext_v4i64_undef: ; AVX2: # %bb.0: -; AVX2-NEXT: pushq %rbp -; AVX2-NEXT: pushq %r15 -; AVX2-NEXT: pushq %r14 -; AVX2-NEXT: pushq %r13 -; AVX2-NEXT: pushq %r12 -; AVX2-NEXT: pushq %rbx -; AVX2-NEXT: vmovq %xmm0, %r11 -; AVX2-NEXT: movq %r11, %r10 -; AVX2-NEXT: sarq $63, %r10 -; AVX2-NEXT: vpextrq $1, %xmm0, %rcx -; AVX2-NEXT: movq %rcx, %r9 -; AVX2-NEXT: sarq $63, %r9 -; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0 -; AVX2-NEXT: vmovq %xmm0, %rdx -; AVX2-NEXT: movq %rdx, %r8 -; AVX2-NEXT: sarq $63, %r8 -; AVX2-NEXT: vpextrq $1, %xmm0, %rsi -; AVX2-NEXT: movq %rsi, %rdi -; AVX2-NEXT: sarq $63, %rdi -; AVX2-NEXT: vmovq %xmm1, %rbx -; AVX2-NEXT: movq %rbx, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill -; AVX2-NEXT: sarq $63, %rbx -; AVX2-NEXT: vpextrq $1, %xmm1, %r14 -; AVX2-NEXT: movq %r14, %r15 -; AVX2-NEXT: sarq $63, %r15 -; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm0 -; AVX2-NEXT: vmovq %xmm0, %r12 -; AVX2-NEXT: movq %r12, %r13 -; AVX2-NEXT: sarq $63, %r13 -; AVX2-NEXT: vpextrq $1, %xmm0, %rax -; AVX2-NEXT: movq %rax, %rbp -; AVX2-NEXT: sarq $63, %rbp -; AVX2-NEXT: subq %rax, %rsi -; AVX2-NEXT: sbbq %rbp, %rdi -; AVX2-NEXT: subq %r12, %rdx -; AVX2-NEXT: sbbq %r13, %r8 -; AVX2-NEXT: subq %r14, %rcx -; AVX2-NEXT: sbbq %r15, %r9 -; AVX2-NEXT: subq {{[-0-9]+}}(%r{{[sb]}}p), %r11 # 8-byte Folded Reload -; AVX2-NEXT: sbbq %rbx, %r10 -; AVX2-NEXT: sarq $63, %r10 -; AVX2-NEXT: xorq %r10, %r11 -; AVX2-NEXT: subq %r10, %r11 -; AVX2-NEXT: sarq $63, %r9 -; AVX2-NEXT: xorq %r9, %rcx -; AVX2-NEXT: subq %r9, %rcx -; AVX2-NEXT: sarq $63, %r8 -; AVX2-NEXT: xorq %r8, %rdx -; AVX2-NEXT: subq %r8, %rdx -; AVX2-NEXT: sarq $63, %rdi -; AVX2-NEXT: xorq %rdi, %rsi -; AVX2-NEXT: subq %rdi, %rsi -; AVX2-NEXT: vmovq %rsi, %xmm0 -; AVX2-NEXT: vmovq %rdx, %xmm1 -; AVX2-NEXT: vmovq %rcx, %xmm2 -; AVX2-NEXT: vmovq %r11, %xmm3 -; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0] -; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm3[0],xmm2[0] -; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0 -; AVX2-NEXT: popq %rbx -; AVX2-NEXT: popq %r12 -; AVX2-NEXT: popq %r13 -; AVX2-NEXT: popq %r14 -; AVX2-NEXT: popq %r15 -; AVX2-NEXT: popq %rbp +; AVX2-NEXT: vpcmpgtq %ymm1, %ymm0, %ymm2 +; AVX2-NEXT: vpsubq %ymm1, %ymm0, %ymm3 +; AVX2-NEXT: vpsubq %ymm0, %ymm1, %ymm0 +; AVX2-NEXT: vblendvpd %ymm2, %ymm3, %ymm0, %ymm0 ; AVX2-NEXT: retq ; ; AVX512-LABEL: abd_ext_v4i64_undef: @@ -629,25 +399,25 @@ define <8 x i32> @abd_minmax_v8i32(<8 x i32> %a, <8 x i32> %b) nounwind { define <4 x i64> @abd_minmax_v4i64(<4 x i64> %a, <4 x i64> %b) nounwind { ; AVX1-LABEL: abd_minmax_v4i64: ; AVX1: # %bb.0: -; AVX1-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2 -; AVX1-NEXT: vblendvpd %xmm2, %xmm1, %xmm0, %xmm3 -; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm4 -; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm5 -; AVX1-NEXT: vpcmpgtq %xmm4, %xmm5, %xmm6 -; AVX1-NEXT: vblendvpd %xmm6, %xmm4, %xmm5, %xmm7 -; AVX1-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0 -; AVX1-NEXT: vpsubq %xmm3, %xmm0, %xmm0 -; AVX1-NEXT: vblendvpd %xmm6, %xmm5, %xmm4, %xmm1 -; AVX1-NEXT: vpsubq %xmm7, %xmm1, %xmm1 -; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0 +; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2 +; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm3 +; AVX1-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm4 +; AVX1-NEXT: vpsubq %xmm2, %xmm3, %xmm5 +; AVX1-NEXT: vpsubq %xmm3, %xmm2, %xmm2 +; AVX1-NEXT: vblendvpd %xmm4, %xmm5, %xmm2, %xmm2 +; AVX1-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm3 +; AVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm4 +; AVX1-NEXT: vpsubq %xmm0, %xmm1, %xmm0 +; AVX1-NEXT: vblendvpd %xmm3, %xmm4, %xmm0, %xmm0 +; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0 ; AVX1-NEXT: retq ; ; AVX2-LABEL: abd_minmax_v4i64: ; AVX2: # %bb.0: ; AVX2-NEXT: vpcmpgtq %ymm1, %ymm0, %ymm2 -; AVX2-NEXT: vblendvpd %ymm2, %ymm1, %ymm0, %ymm3 -; AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0 -; AVX2-NEXT: vpsubq %ymm3, %ymm0, %ymm0 +; AVX2-NEXT: vpsubq %ymm1, %ymm0, %ymm3 +; AVX2-NEXT: vpsubq %ymm0, %ymm1, %ymm0 +; AVX2-NEXT: vblendvpd %ymm2, %ymm3, %ymm0, %ymm0 ; AVX2-NEXT: retq ; ; AVX512-LABEL: abd_minmax_v4i64: diff --git a/llvm/test/CodeGen/X86/abdu-vector-128.ll b/llvm/test/CodeGen/X86/abdu-vector-128.ll index c445b20..69c999a 100644 --- a/llvm/test/CodeGen/X86/abdu-vector-128.ll +++ b/llvm/test/CodeGen/X86/abdu-vector-128.ll @@ -339,71 +339,39 @@ define <2 x i64> @abd_ext_v2i64(<2 x i64> %a, <2 x i64> %b) nounwind { ; ; SSE42-LABEL: abd_ext_v2i64: ; SSE42: # %bb.0: -; SSE42-NEXT: movq %xmm0, %rax -; SSE42-NEXT: pextrq $1, %xmm0, %rcx -; SSE42-NEXT: movq %xmm1, %rdx -; SSE42-NEXT: pextrq $1, %xmm1, %rsi -; SSE42-NEXT: xorl %edi, %edi -; SSE42-NEXT: subq %rsi, %rcx -; SSE42-NEXT: movl $0, %esi -; SSE42-NEXT: sbbq %rsi, %rsi -; SSE42-NEXT: subq %rdx, %rax -; SSE42-NEXT: sbbq %rdi, %rdi -; SSE42-NEXT: sarq $63, %rdi -; SSE42-NEXT: xorq %rdi, %rax -; SSE42-NEXT: subq %rdi, %rax -; SSE42-NEXT: sarq $63, %rsi -; SSE42-NEXT: xorq %rsi, %rcx -; SSE42-NEXT: subq %rsi, %rcx -; SSE42-NEXT: movq %rcx, %xmm1 -; SSE42-NEXT: movq %rax, %xmm0 -; SSE42-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0] +; SSE42-NEXT: movdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808] +; SSE42-NEXT: movdqa %xmm1, %xmm3 +; SSE42-NEXT: pxor %xmm2, %xmm3 +; SSE42-NEXT: pxor %xmm0, %xmm2 +; SSE42-NEXT: pcmpgtq %xmm3, %xmm2 +; SSE42-NEXT: movdqa %xmm0, %xmm3 +; SSE42-NEXT: psubq %xmm1, %xmm3 +; SSE42-NEXT: psubq %xmm0, %xmm1 +; SSE42-NEXT: movdqa %xmm2, %xmm0 +; SSE42-NEXT: blendvpd %xmm0, %xmm3, %xmm1 +; SSE42-NEXT: movapd %xmm1, %xmm0 ; SSE42-NEXT: retq ; ; AVX1-LABEL: abd_ext_v2i64: ; AVX1: # %bb.0: -; AVX1-NEXT: vmovq %xmm0, %rax -; AVX1-NEXT: vpextrq $1, %xmm0, %rcx -; AVX1-NEXT: vmovq %xmm1, %rdx -; AVX1-NEXT: vpextrq $1, %xmm1, %rsi -; AVX1-NEXT: xorl %edi, %edi -; AVX1-NEXT: subq %rsi, %rcx -; AVX1-NEXT: movl $0, %esi -; AVX1-NEXT: sbbq %rsi, %rsi -; AVX1-NEXT: subq %rdx, %rax -; AVX1-NEXT: sbbq %rdi, %rdi -; AVX1-NEXT: sarq $63, %rdi -; AVX1-NEXT: xorq %rdi, %rax -; AVX1-NEXT: subq %rdi, %rax -; AVX1-NEXT: sarq $63, %rsi -; AVX1-NEXT: xorq %rsi, %rcx -; AVX1-NEXT: subq %rsi, %rcx -; AVX1-NEXT: vmovq %rcx, %xmm0 -; AVX1-NEXT: vmovq %rax, %xmm1 -; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0] +; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808] +; AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm3 +; AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm2 +; AVX1-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm2 +; AVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm3 +; AVX1-NEXT: vpsubq %xmm0, %xmm1, %xmm0 +; AVX1-NEXT: vblendvpd %xmm2, %xmm3, %xmm0, %xmm0 ; AVX1-NEXT: retq ; ; AVX2-LABEL: abd_ext_v2i64: ; AVX2: # %bb.0: -; AVX2-NEXT: vmovq %xmm0, %rax -; AVX2-NEXT: vpextrq $1, %xmm0, %rcx -; AVX2-NEXT: vmovq %xmm1, %rdx -; AVX2-NEXT: vpextrq $1, %xmm1, %rsi -; AVX2-NEXT: xorl %edi, %edi -; AVX2-NEXT: subq %rsi, %rcx -; AVX2-NEXT: movl $0, %esi -; AVX2-NEXT: sbbq %rsi, %rsi -; AVX2-NEXT: subq %rdx, %rax -; AVX2-NEXT: sbbq %rdi, %rdi -; AVX2-NEXT: sarq $63, %rdi -; AVX2-NEXT: xorq %rdi, %rax -; AVX2-NEXT: subq %rdi, %rax -; AVX2-NEXT: sarq $63, %rsi -; AVX2-NEXT: xorq %rsi, %rcx -; AVX2-NEXT: subq %rsi, %rcx -; AVX2-NEXT: vmovq %rcx, %xmm0 -; AVX2-NEXT: vmovq %rax, %xmm1 -; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0] +; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808] +; AVX2-NEXT: vpxor %xmm2, %xmm1, %xmm3 +; AVX2-NEXT: vpxor %xmm2, %xmm0, %xmm2 +; AVX2-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm2 +; AVX2-NEXT: vpsubq %xmm1, %xmm0, %xmm3 +; AVX2-NEXT: vpsubq %xmm0, %xmm1, %xmm0 +; AVX2-NEXT: vblendvpd %xmm2, %xmm3, %xmm0, %xmm0 ; AVX2-NEXT: retq ; ; AVX512-LABEL: abd_ext_v2i64: @@ -448,71 +416,39 @@ define <2 x i64> @abd_ext_v2i64_undef(<2 x i64> %a, <2 x i64> %b) nounwind { ; ; SSE42-LABEL: abd_ext_v2i64_undef: ; SSE42: # %bb.0: -; SSE42-NEXT: movq %xmm0, %rax -; SSE42-NEXT: pextrq $1, %xmm0, %rcx -; SSE42-NEXT: movq %xmm1, %rdx -; SSE42-NEXT: pextrq $1, %xmm1, %rsi -; SSE42-NEXT: xorl %edi, %edi -; SSE42-NEXT: subq %rsi, %rcx -; SSE42-NEXT: movl $0, %esi -; SSE42-NEXT: sbbq %rsi, %rsi -; SSE42-NEXT: subq %rdx, %rax -; SSE42-NEXT: sbbq %rdi, %rdi -; SSE42-NEXT: sarq $63, %rdi -; SSE42-NEXT: xorq %rdi, %rax -; SSE42-NEXT: subq %rdi, %rax -; SSE42-NEXT: sarq $63, %rsi -; SSE42-NEXT: xorq %rsi, %rcx -; SSE42-NEXT: subq %rsi, %rcx -; SSE42-NEXT: movq %rcx, %xmm1 -; SSE42-NEXT: movq %rax, %xmm0 -; SSE42-NEXT: punpcklqdq {{.*#+}} xmm0 = xmm0[0],xmm1[0] +; SSE42-NEXT: movdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808] +; SSE42-NEXT: movdqa %xmm1, %xmm3 +; SSE42-NEXT: pxor %xmm2, %xmm3 +; SSE42-NEXT: pxor %xmm0, %xmm2 +; SSE42-NEXT: pcmpgtq %xmm3, %xmm2 +; SSE42-NEXT: movdqa %xmm0, %xmm3 +; SSE42-NEXT: psubq %xmm1, %xmm3 +; SSE42-NEXT: psubq %xmm0, %xmm1 +; SSE42-NEXT: movdqa %xmm2, %xmm0 +; SSE42-NEXT: blendvpd %xmm0, %xmm3, %xmm1 +; SSE42-NEXT: movapd %xmm1, %xmm0 ; SSE42-NEXT: retq ; ; AVX1-LABEL: abd_ext_v2i64_undef: ; AVX1: # %bb.0: -; AVX1-NEXT: vmovq %xmm0, %rax -; AVX1-NEXT: vpextrq $1, %xmm0, %rcx -; AVX1-NEXT: vmovq %xmm1, %rdx -; AVX1-NEXT: vpextrq $1, %xmm1, %rsi -; AVX1-NEXT: xorl %edi, %edi -; AVX1-NEXT: subq %rsi, %rcx -; AVX1-NEXT: movl $0, %esi -; AVX1-NEXT: sbbq %rsi, %rsi -; AVX1-NEXT: subq %rdx, %rax -; AVX1-NEXT: sbbq %rdi, %rdi -; AVX1-NEXT: sarq $63, %rdi -; AVX1-NEXT: xorq %rdi, %rax -; AVX1-NEXT: subq %rdi, %rax -; AVX1-NEXT: sarq $63, %rsi -; AVX1-NEXT: xorq %rsi, %rcx -; AVX1-NEXT: subq %rsi, %rcx -; AVX1-NEXT: vmovq %rcx, %xmm0 -; AVX1-NEXT: vmovq %rax, %xmm1 -; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0] +; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808] +; AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm3 +; AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm2 +; AVX1-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm2 +; AVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm3 +; AVX1-NEXT: vpsubq %xmm0, %xmm1, %xmm0 +; AVX1-NEXT: vblendvpd %xmm2, %xmm3, %xmm0, %xmm0 ; AVX1-NEXT: retq ; ; AVX2-LABEL: abd_ext_v2i64_undef: ; AVX2: # %bb.0: -; AVX2-NEXT: vmovq %xmm0, %rax -; AVX2-NEXT: vpextrq $1, %xmm0, %rcx -; AVX2-NEXT: vmovq %xmm1, %rdx -; AVX2-NEXT: vpextrq $1, %xmm1, %rsi -; AVX2-NEXT: xorl %edi, %edi -; AVX2-NEXT: subq %rsi, %rcx -; AVX2-NEXT: movl $0, %esi -; AVX2-NEXT: sbbq %rsi, %rsi -; AVX2-NEXT: subq %rdx, %rax -; AVX2-NEXT: sbbq %rdi, %rdi -; AVX2-NEXT: sarq $63, %rdi -; AVX2-NEXT: xorq %rdi, %rax -; AVX2-NEXT: subq %rdi, %rax -; AVX2-NEXT: sarq $63, %rsi -; AVX2-NEXT: xorq %rsi, %rcx -; AVX2-NEXT: subq %rsi, %rcx -; AVX2-NEXT: vmovq %rcx, %xmm0 -; AVX2-NEXT: vmovq %rax, %xmm1 -; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0] +; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808] +; AVX2-NEXT: vpxor %xmm2, %xmm1, %xmm3 +; AVX2-NEXT: vpxor %xmm2, %xmm0, %xmm2 +; AVX2-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm2 +; AVX2-NEXT: vpsubq %xmm1, %xmm0, %xmm3 +; AVX2-NEXT: vpsubq %xmm0, %xmm1, %xmm0 +; AVX2-NEXT: vblendvpd %xmm2, %xmm3, %xmm0, %xmm0 ; AVX2-NEXT: retq ; ; AVX512-LABEL: abd_ext_v2i64_undef: @@ -659,44 +595,39 @@ define <2 x i64> @abd_minmax_v2i64(<2 x i64> %a, <2 x i64> %b) nounwind { ; ; SSE42-LABEL: abd_minmax_v2i64: ; SSE42: # %bb.0: -; SSE42-NEXT: movdqa %xmm0, %xmm2 -; SSE42-NEXT: movdqa {{.*#+}} xmm4 = [9223372036854775808,9223372036854775808] +; SSE42-NEXT: movdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808] +; SSE42-NEXT: movdqa %xmm1, %xmm3 +; SSE42-NEXT: pxor %xmm2, %xmm3 +; SSE42-NEXT: pxor %xmm0, %xmm2 +; SSE42-NEXT: pcmpgtq %xmm3, %xmm2 ; SSE42-NEXT: movdqa %xmm0, %xmm3 -; SSE42-NEXT: pxor %xmm4, %xmm3 -; SSE42-NEXT: pxor %xmm1, %xmm4 -; SSE42-NEXT: movdqa %xmm4, %xmm0 -; SSE42-NEXT: pcmpgtq %xmm3, %xmm0 -; SSE42-NEXT: movdqa %xmm1, %xmm5 -; SSE42-NEXT: blendvpd %xmm0, %xmm2, %xmm5 -; SSE42-NEXT: pcmpgtq %xmm4, %xmm3 -; SSE42-NEXT: movdqa %xmm3, %xmm0 -; SSE42-NEXT: blendvpd %xmm0, %xmm2, %xmm1 -; SSE42-NEXT: psubq %xmm5, %xmm1 -; SSE42-NEXT: movdqa %xmm1, %xmm0 +; SSE42-NEXT: psubq %xmm1, %xmm3 +; SSE42-NEXT: psubq %xmm0, %xmm1 +; SSE42-NEXT: movdqa %xmm2, %xmm0 +; SSE42-NEXT: blendvpd %xmm0, %xmm3, %xmm1 +; SSE42-NEXT: movapd %xmm1, %xmm0 ; SSE42-NEXT: retq ; ; AVX1-LABEL: abd_minmax_v2i64: ; AVX1: # %bb.0: ; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808] -; AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm3 -; AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm2 -; AVX1-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm4 -; AVX1-NEXT: vblendvpd %xmm4, %xmm0, %xmm1, %xmm4 -; AVX1-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm2 -; AVX1-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0 -; AVX1-NEXT: vpsubq %xmm4, %xmm0, %xmm0 +; AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm3 +; AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm2 +; AVX1-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm2 +; AVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm3 +; AVX1-NEXT: vpsubq %xmm0, %xmm1, %xmm0 +; AVX1-NEXT: vblendvpd %xmm2, %xmm3, %xmm0, %xmm0 ; AVX1-NEXT: retq ; ; AVX2-LABEL: abd_minmax_v2i64: ; AVX2: # %bb.0: ; AVX2-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808] -; AVX2-NEXT: vpxor %xmm2, %xmm0, %xmm3 -; AVX2-NEXT: vpxor %xmm2, %xmm1, %xmm2 -; AVX2-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm4 -; AVX2-NEXT: vblendvpd %xmm4, %xmm0, %xmm1, %xmm4 -; AVX2-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm2 -; AVX2-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm0 -; AVX2-NEXT: vpsubq %xmm4, %xmm0, %xmm0 +; AVX2-NEXT: vpxor %xmm2, %xmm1, %xmm3 +; AVX2-NEXT: vpxor %xmm2, %xmm0, %xmm2 +; AVX2-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm2 +; AVX2-NEXT: vpsubq %xmm1, %xmm0, %xmm3 +; AVX2-NEXT: vpsubq %xmm0, %xmm1, %xmm0 +; AVX2-NEXT: vblendvpd %xmm2, %xmm3, %xmm0, %xmm0 ; AVX2-NEXT: retq ; ; AVX512-LABEL: abd_minmax_v2i64: diff --git a/llvm/test/CodeGen/X86/abdu-vector-256.ll b/llvm/test/CodeGen/X86/abdu-vector-256.ll index 52a678d..abc73ce 100644 --- a/llvm/test/CodeGen/X86/abdu-vector-256.ll +++ b/llvm/test/CodeGen/X86/abdu-vector-256.ll @@ -220,92 +220,33 @@ define <8 x i32> @abd_ext_v8i32_undef(<8 x i32> %a, <8 x i32> %b) nounwind { define <4 x i64> @abd_ext_v4i64(<4 x i64> %a, <4 x i64> %b) nounwind { ; AVX1-LABEL: abd_ext_v4i64: ; AVX1: # %bb.0: -; AVX1-NEXT: vmovq %xmm0, %rax -; AVX1-NEXT: vpextrq $1, %xmm0, %rcx -; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0 -; AVX1-NEXT: vmovq %xmm0, %rdx -; AVX1-NEXT: vpextrq $1, %xmm0, %rsi -; AVX1-NEXT: vmovq %xmm1, %r8 -; AVX1-NEXT: vpextrq $1, %xmm1, %r9 -; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm0 -; AVX1-NEXT: vmovq %xmm0, %r10 -; AVX1-NEXT: vpextrq $1, %xmm0, %rdi -; AVX1-NEXT: xorl %r11d, %r11d -; AVX1-NEXT: subq %rdi, %rsi -; AVX1-NEXT: movl $0, %edi -; AVX1-NEXT: sbbq %rdi, %rdi -; AVX1-NEXT: subq %r10, %rdx -; AVX1-NEXT: movl $0, %r10d -; AVX1-NEXT: sbbq %r10, %r10 -; AVX1-NEXT: subq %r9, %rcx -; AVX1-NEXT: movl $0, %r9d -; AVX1-NEXT: sbbq %r9, %r9 -; AVX1-NEXT: subq %r8, %rax -; AVX1-NEXT: sbbq %r11, %r11 -; AVX1-NEXT: sarq $63, %r11 -; AVX1-NEXT: xorq %r11, %rax -; AVX1-NEXT: subq %r11, %rax -; AVX1-NEXT: sarq $63, %r9 -; AVX1-NEXT: xorq %r9, %rcx -; AVX1-NEXT: subq %r9, %rcx -; AVX1-NEXT: sarq $63, %r10 -; AVX1-NEXT: xorq %r10, %rdx -; AVX1-NEXT: subq %r10, %rdx -; AVX1-NEXT: sarq $63, %rdi -; AVX1-NEXT: xorq %rdi, %rsi -; AVX1-NEXT: subq %rdi, %rsi -; AVX1-NEXT: vmovq %rsi, %xmm0 -; AVX1-NEXT: vmovq %rdx, %xmm1 -; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0] -; AVX1-NEXT: vmovq %rcx, %xmm1 -; AVX1-NEXT: vmovq %rax, %xmm2 -; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0] -; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0 +; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2 +; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [9223372036854775808,9223372036854775808] +; AVX1-NEXT: vpxor %xmm3, %xmm2, %xmm4 +; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm5 +; AVX1-NEXT: vpxor %xmm3, %xmm5, %xmm6 +; AVX1-NEXT: vpcmpgtq %xmm4, %xmm6, %xmm4 +; AVX1-NEXT: vpsubq %xmm2, %xmm5, %xmm6 +; AVX1-NEXT: vpsubq %xmm5, %xmm2, %xmm2 +; AVX1-NEXT: vblendvpd %xmm4, %xmm6, %xmm2, %xmm2 +; AVX1-NEXT: vpxor %xmm3, %xmm1, %xmm4 +; AVX1-NEXT: vpxor %xmm3, %xmm0, %xmm3 +; AVX1-NEXT: vpcmpgtq %xmm4, %xmm3, %xmm3 +; AVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm4 +; AVX1-NEXT: vpsubq %xmm0, %xmm1, %xmm0 +; AVX1-NEXT: vblendvpd %xmm3, %xmm4, %xmm0, %xmm0 +; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0 ; AVX1-NEXT: retq ; ; AVX2-LABEL: abd_ext_v4i64: ; AVX2: # %bb.0: -; AVX2-NEXT: vmovq %xmm0, %rax -; AVX2-NEXT: vpextrq $1, %xmm0, %rcx -; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0 -; AVX2-NEXT: vmovq %xmm0, %rdx -; AVX2-NEXT: vpextrq $1, %xmm0, %rsi -; AVX2-NEXT: vmovq %xmm1, %r8 -; AVX2-NEXT: vpextrq $1, %xmm1, %r9 -; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm0 -; AVX2-NEXT: vmovq %xmm0, %r10 -; AVX2-NEXT: vpextrq $1, %xmm0, %rdi -; AVX2-NEXT: xorl %r11d, %r11d -; AVX2-NEXT: subq %rdi, %rsi -; AVX2-NEXT: movl $0, %edi -; AVX2-NEXT: sbbq %rdi, %rdi -; AVX2-NEXT: subq %r10, %rdx -; AVX2-NEXT: movl $0, %r10d -; AVX2-NEXT: sbbq %r10, %r10 -; AVX2-NEXT: subq %r9, %rcx -; AVX2-NEXT: movl $0, %r9d -; AVX2-NEXT: sbbq %r9, %r9 -; AVX2-NEXT: subq %r8, %rax -; AVX2-NEXT: sbbq %r11, %r11 -; AVX2-NEXT: sarq $63, %r11 -; AVX2-NEXT: xorq %r11, %rax -; AVX2-NEXT: subq %r11, %rax -; AVX2-NEXT: sarq $63, %r9 -; AVX2-NEXT: xorq %r9, %rcx -; AVX2-NEXT: subq %r9, %rcx -; AVX2-NEXT: sarq $63, %r10 -; AVX2-NEXT: xorq %r10, %rdx -; AVX2-NEXT: subq %r10, %rdx -; AVX2-NEXT: sarq $63, %rdi -; AVX2-NEXT: xorq %rdi, %rsi -; AVX2-NEXT: subq %rdi, %rsi -; AVX2-NEXT: vmovq %rsi, %xmm0 -; AVX2-NEXT: vmovq %rdx, %xmm1 -; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0] -; AVX2-NEXT: vmovq %rcx, %xmm1 -; AVX2-NEXT: vmovq %rax, %xmm2 -; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0] -; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0 +; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808] +; AVX2-NEXT: vpxor %ymm2, %ymm1, %ymm3 +; AVX2-NEXT: vpxor %ymm2, %ymm0, %ymm2 +; AVX2-NEXT: vpcmpgtq %ymm3, %ymm2, %ymm2 +; AVX2-NEXT: vpsubq %ymm1, %ymm0, %ymm3 +; AVX2-NEXT: vpsubq %ymm0, %ymm1, %ymm0 +; AVX2-NEXT: vblendvpd %ymm2, %ymm3, %ymm0, %ymm0 ; AVX2-NEXT: retq ; ; AVX512-LABEL: abd_ext_v4i64: @@ -325,92 +266,33 @@ define <4 x i64> @abd_ext_v4i64(<4 x i64> %a, <4 x i64> %b) nounwind { define <4 x i64> @abd_ext_v4i64_undef(<4 x i64> %a, <4 x i64> %b) nounwind { ; AVX1-LABEL: abd_ext_v4i64_undef: ; AVX1: # %bb.0: -; AVX1-NEXT: vmovq %xmm0, %rax -; AVX1-NEXT: vpextrq $1, %xmm0, %rcx -; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0 -; AVX1-NEXT: vmovq %xmm0, %rdx -; AVX1-NEXT: vpextrq $1, %xmm0, %rsi -; AVX1-NEXT: vmovq %xmm1, %r8 -; AVX1-NEXT: vpextrq $1, %xmm1, %r9 -; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm0 -; AVX1-NEXT: vmovq %xmm0, %r10 -; AVX1-NEXT: vpextrq $1, %xmm0, %rdi -; AVX1-NEXT: xorl %r11d, %r11d -; AVX1-NEXT: subq %rdi, %rsi -; AVX1-NEXT: movl $0, %edi -; AVX1-NEXT: sbbq %rdi, %rdi -; AVX1-NEXT: subq %r10, %rdx -; AVX1-NEXT: movl $0, %r10d -; AVX1-NEXT: sbbq %r10, %r10 -; AVX1-NEXT: subq %r9, %rcx -; AVX1-NEXT: movl $0, %r9d -; AVX1-NEXT: sbbq %r9, %r9 -; AVX1-NEXT: subq %r8, %rax -; AVX1-NEXT: sbbq %r11, %r11 -; AVX1-NEXT: sarq $63, %r11 -; AVX1-NEXT: xorq %r11, %rax -; AVX1-NEXT: subq %r11, %rax -; AVX1-NEXT: sarq $63, %r9 -; AVX1-NEXT: xorq %r9, %rcx -; AVX1-NEXT: subq %r9, %rcx -; AVX1-NEXT: sarq $63, %r10 -; AVX1-NEXT: xorq %r10, %rdx -; AVX1-NEXT: subq %r10, %rdx -; AVX1-NEXT: sarq $63, %rdi -; AVX1-NEXT: xorq %rdi, %rsi -; AVX1-NEXT: subq %rdi, %rsi -; AVX1-NEXT: vmovq %rsi, %xmm0 -; AVX1-NEXT: vmovq %rdx, %xmm1 -; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0] -; AVX1-NEXT: vmovq %rcx, %xmm1 -; AVX1-NEXT: vmovq %rax, %xmm2 -; AVX1-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0] -; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0 +; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2 +; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [9223372036854775808,9223372036854775808] +; AVX1-NEXT: vpxor %xmm3, %xmm2, %xmm4 +; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm5 +; AVX1-NEXT: vpxor %xmm3, %xmm5, %xmm6 +; AVX1-NEXT: vpcmpgtq %xmm4, %xmm6, %xmm4 +; AVX1-NEXT: vpsubq %xmm2, %xmm5, %xmm6 +; AVX1-NEXT: vpsubq %xmm5, %xmm2, %xmm2 +; AVX1-NEXT: vblendvpd %xmm4, %xmm6, %xmm2, %xmm2 +; AVX1-NEXT: vpxor %xmm3, %xmm1, %xmm4 +; AVX1-NEXT: vpxor %xmm3, %xmm0, %xmm3 +; AVX1-NEXT: vpcmpgtq %xmm4, %xmm3, %xmm3 +; AVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm4 +; AVX1-NEXT: vpsubq %xmm0, %xmm1, %xmm0 +; AVX1-NEXT: vblendvpd %xmm3, %xmm4, %xmm0, %xmm0 +; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0 ; AVX1-NEXT: retq ; ; AVX2-LABEL: abd_ext_v4i64_undef: ; AVX2: # %bb.0: -; AVX2-NEXT: vmovq %xmm0, %rax -; AVX2-NEXT: vpextrq $1, %xmm0, %rcx -; AVX2-NEXT: vextracti128 $1, %ymm0, %xmm0 -; AVX2-NEXT: vmovq %xmm0, %rdx -; AVX2-NEXT: vpextrq $1, %xmm0, %rsi -; AVX2-NEXT: vmovq %xmm1, %r8 -; AVX2-NEXT: vpextrq $1, %xmm1, %r9 -; AVX2-NEXT: vextracti128 $1, %ymm1, %xmm0 -; AVX2-NEXT: vmovq %xmm0, %r10 -; AVX2-NEXT: vpextrq $1, %xmm0, %rdi -; AVX2-NEXT: xorl %r11d, %r11d -; AVX2-NEXT: subq %rdi, %rsi -; AVX2-NEXT: movl $0, %edi -; AVX2-NEXT: sbbq %rdi, %rdi -; AVX2-NEXT: subq %r10, %rdx -; AVX2-NEXT: movl $0, %r10d -; AVX2-NEXT: sbbq %r10, %r10 -; AVX2-NEXT: subq %r9, %rcx -; AVX2-NEXT: movl $0, %r9d -; AVX2-NEXT: sbbq %r9, %r9 -; AVX2-NEXT: subq %r8, %rax -; AVX2-NEXT: sbbq %r11, %r11 -; AVX2-NEXT: sarq $63, %r11 -; AVX2-NEXT: xorq %r11, %rax -; AVX2-NEXT: subq %r11, %rax -; AVX2-NEXT: sarq $63, %r9 -; AVX2-NEXT: xorq %r9, %rcx -; AVX2-NEXT: subq %r9, %rcx -; AVX2-NEXT: sarq $63, %r10 -; AVX2-NEXT: xorq %r10, %rdx -; AVX2-NEXT: subq %r10, %rdx -; AVX2-NEXT: sarq $63, %rdi -; AVX2-NEXT: xorq %rdi, %rsi -; AVX2-NEXT: subq %rdi, %rsi -; AVX2-NEXT: vmovq %rsi, %xmm0 -; AVX2-NEXT: vmovq %rdx, %xmm1 -; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0] -; AVX2-NEXT: vmovq %rcx, %xmm1 -; AVX2-NEXT: vmovq %rax, %xmm2 -; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm2[0],xmm1[0] -; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0 +; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808] +; AVX2-NEXT: vpxor %ymm2, %ymm1, %ymm3 +; AVX2-NEXT: vpxor %ymm2, %ymm0, %ymm2 +; AVX2-NEXT: vpcmpgtq %ymm3, %ymm2, %ymm2 +; AVX2-NEXT: vpsubq %ymm1, %ymm0, %ymm3 +; AVX2-NEXT: vpsubq %ymm0, %ymm1, %ymm0 +; AVX2-NEXT: vblendvpd %ymm2, %ymm3, %ymm0, %ymm0 ; AVX2-NEXT: retq ; ; AVX512-LABEL: abd_ext_v4i64_undef: @@ -533,36 +415,33 @@ define <8 x i32> @abd_minmax_v8i32(<8 x i32> %a, <8 x i32> %b) nounwind { define <4 x i64> @abd_minmax_v4i64(<4 x i64> %a, <4 x i64> %b) nounwind { ; AVX1-LABEL: abd_minmax_v4i64: ; AVX1: # %bb.0: -; AVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808] -; AVX1-NEXT: vpxor %xmm2, %xmm0, %xmm3 -; AVX1-NEXT: vpxor %xmm2, %xmm1, %xmm4 -; AVX1-NEXT: vpcmpgtq %xmm3, %xmm4, %xmm5 -; AVX1-NEXT: vblendvpd %xmm5, %xmm0, %xmm1, %xmm5 -; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm6 -; AVX1-NEXT: vpxor %xmm2, %xmm6, %xmm7 -; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm8 -; AVX1-NEXT: vpxor %xmm2, %xmm8, %xmm2 -; AVX1-NEXT: vpcmpgtq %xmm7, %xmm2, %xmm9 -; AVX1-NEXT: vblendvpd %xmm9, %xmm6, %xmm8, %xmm9 +; AVX1-NEXT: vextractf128 $1, %ymm1, %xmm2 +; AVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [9223372036854775808,9223372036854775808] +; AVX1-NEXT: vpxor %xmm3, %xmm2, %xmm4 +; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm5 +; AVX1-NEXT: vpxor %xmm3, %xmm5, %xmm6 +; AVX1-NEXT: vpcmpgtq %xmm4, %xmm6, %xmm4 +; AVX1-NEXT: vpsubq %xmm2, %xmm5, %xmm6 +; AVX1-NEXT: vpsubq %xmm5, %xmm2, %xmm2 +; AVX1-NEXT: vblendvpd %xmm4, %xmm6, %xmm2, %xmm2 +; AVX1-NEXT: vpxor %xmm3, %xmm1, %xmm4 +; AVX1-NEXT: vpxor %xmm3, %xmm0, %xmm3 ; AVX1-NEXT: vpcmpgtq %xmm4, %xmm3, %xmm3 -; AVX1-NEXT: vblendvpd %xmm3, %xmm0, %xmm1, %xmm0 -; AVX1-NEXT: vpsubq %xmm5, %xmm0, %xmm0 -; AVX1-NEXT: vpcmpgtq %xmm2, %xmm7, %xmm1 -; AVX1-NEXT: vblendvpd %xmm1, %xmm6, %xmm8, %xmm1 -; AVX1-NEXT: vpsubq %xmm9, %xmm1, %xmm1 -; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0 +; AVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm4 +; AVX1-NEXT: vpsubq %xmm0, %xmm1, %xmm0 +; AVX1-NEXT: vblendvpd %xmm3, %xmm4, %xmm0, %xmm0 +; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0 ; AVX1-NEXT: retq ; ; AVX2-LABEL: abd_minmax_v4i64: ; AVX2: # %bb.0: ; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808] -; AVX2-NEXT: vpxor %ymm2, %ymm0, %ymm3 -; AVX2-NEXT: vpxor %ymm2, %ymm1, %ymm2 -; AVX2-NEXT: vpcmpgtq %ymm3, %ymm2, %ymm4 -; AVX2-NEXT: vblendvpd %ymm4, %ymm0, %ymm1, %ymm4 -; AVX2-NEXT: vpcmpgtq %ymm2, %ymm3, %ymm2 -; AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm0 -; AVX2-NEXT: vpsubq %ymm4, %ymm0, %ymm0 +; AVX2-NEXT: vpxor %ymm2, %ymm1, %ymm3 +; AVX2-NEXT: vpxor %ymm2, %ymm0, %ymm2 +; AVX2-NEXT: vpcmpgtq %ymm3, %ymm2, %ymm2 +; AVX2-NEXT: vpsubq %ymm1, %ymm0, %ymm3 +; AVX2-NEXT: vpsubq %ymm0, %ymm1, %ymm0 +; AVX2-NEXT: vblendvpd %ymm2, %ymm3, %ymm0, %ymm0 ; AVX2-NEXT: retq ; ; AVX512-LABEL: abd_minmax_v4i64: diff --git a/llvm/test/CodeGen/X86/midpoint-int-vec-128.ll b/llvm/test/CodeGen/X86/midpoint-int-vec-128.ll index 83471b9..bfcb9ce 100644 --- a/llvm/test/CodeGen/X86/midpoint-int-vec-128.ll +++ b/llvm/test/CodeGen/X86/midpoint-int-vec-128.ll @@ -915,39 +915,34 @@ define <2 x i64> @vec128_i64_signed_reg_reg(<2 x i64> %a1, <2 x i64> %a2) nounwi ; SSE41: # %bb.0: ; SSE41-NEXT: movdqa %xmm0, %xmm2 ; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [2147483648,2147483648] -; SSE41-NEXT: movdqa %xmm1, %xmm5 -; SSE41-NEXT: pxor %xmm0, %xmm5 +; SSE41-NEXT: movdqa %xmm1, %xmm3 +; SSE41-NEXT: pxor %xmm0, %xmm3 ; SSE41-NEXT: pxor %xmm2, %xmm0 -; SSE41-NEXT: movdqa %xmm0, %xmm3 -; SSE41-NEXT: pcmpgtd %xmm5, %xmm3 -; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm3[0,0,2,2] -; SSE41-NEXT: movdqa %xmm0, %xmm6 -; SSE41-NEXT: pcmpeqd %xmm5, %xmm6 -; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm6[1,1,3,3] -; SSE41-NEXT: pand %xmm4, %xmm7 -; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm3[1,1,3,3] -; SSE41-NEXT: por %xmm7, %xmm3 -; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [1,1] -; SSE41-NEXT: por %xmm3, %xmm4 -; SSE41-NEXT: pcmpgtd %xmm0, %xmm5 -; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2] -; SSE41-NEXT: pand %xmm6, %xmm0 -; SSE41-NEXT: por %xmm5, %xmm0 -; SSE41-NEXT: movdqa %xmm1, %xmm5 -; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm5 -; SSE41-NEXT: movdqa %xmm3, %xmm0 -; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1 -; SSE41-NEXT: psubq %xmm5, %xmm1 -; SSE41-NEXT: movdqa %xmm1, %xmm0 +; SSE41-NEXT: movdqa %xmm0, %xmm4 +; SSE41-NEXT: pcmpgtd %xmm3, %xmm4 +; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2] +; SSE41-NEXT: pcmpeqd %xmm3, %xmm0 +; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,1,3,3] +; SSE41-NEXT: pand %xmm5, %xmm3 +; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm4[1,1,3,3] +; SSE41-NEXT: por %xmm3, %xmm6 +; SSE41-NEXT: por {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm6 +; SSE41-NEXT: pand %xmm5, %xmm0 +; SSE41-NEXT: por %xmm4, %xmm0 +; SSE41-NEXT: movdqa %xmm2, %xmm3 +; SSE41-NEXT: psubq %xmm1, %xmm3 +; SSE41-NEXT: psubq %xmm2, %xmm1 +; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm1 +; SSE41-NEXT: movapd %xmm1, %xmm0 ; SSE41-NEXT: psrlq $1, %xmm0 ; SSE41-NEXT: psrlq $33, %xmm1 -; SSE41-NEXT: pmuludq %xmm4, %xmm1 -; SSE41-NEXT: movdqa %xmm4, %xmm3 +; SSE41-NEXT: pmuludq %xmm6, %xmm1 +; SSE41-NEXT: movdqa %xmm6, %xmm3 ; SSE41-NEXT: psrlq $32, %xmm3 ; SSE41-NEXT: pmuludq %xmm0, %xmm3 ; SSE41-NEXT: paddq %xmm1, %xmm3 ; SSE41-NEXT: psllq $32, %xmm3 -; SSE41-NEXT: pmuludq %xmm4, %xmm0 +; SSE41-NEXT: pmuludq %xmm6, %xmm0 ; SSE41-NEXT: paddq %xmm2, %xmm0 ; SSE41-NEXT: paddq %xmm3, %xmm0 ; SSE41-NEXT: retq @@ -956,9 +951,9 @@ define <2 x i64> @vec128_i64_signed_reg_reg(<2 x i64> %a1, <2 x i64> %a2) nounwi ; AVX1-FALLBACK: # %bb.0: ; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2 ; AVX1-FALLBACK-NEXT: vpor {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm3 -; AVX1-FALLBACK-NEXT: vblendvpd %xmm2, %xmm1, %xmm0, %xmm4 -; AVX1-FALLBACK-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1 -; AVX1-FALLBACK-NEXT: vpsubq %xmm4, %xmm1, %xmm1 +; AVX1-FALLBACK-NEXT: vpsubq %xmm1, %xmm0, %xmm4 +; AVX1-FALLBACK-NEXT: vpsubq %xmm0, %xmm1, %xmm1 +; AVX1-FALLBACK-NEXT: vblendvpd %xmm2, %xmm4, %xmm1, %xmm1 ; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm2 ; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1 ; AVX1-FALLBACK-NEXT: vpmuludq %xmm3, %xmm1, %xmm1 @@ -975,9 +970,9 @@ define <2 x i64> @vec128_i64_signed_reg_reg(<2 x i64> %a1, <2 x i64> %a2) nounwi ; AVX2-FALLBACK: # %bb.0: ; AVX2-FALLBACK-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2 ; AVX2-FALLBACK-NEXT: vpor {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm3 -; AVX2-FALLBACK-NEXT: vblendvpd %xmm2, %xmm1, %xmm0, %xmm4 -; AVX2-FALLBACK-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1 -; AVX2-FALLBACK-NEXT: vpsubq %xmm4, %xmm1, %xmm1 +; AVX2-FALLBACK-NEXT: vpsubq %xmm1, %xmm0, %xmm4 +; AVX2-FALLBACK-NEXT: vpsubq %xmm0, %xmm1, %xmm1 +; AVX2-FALLBACK-NEXT: vblendvpd %xmm2, %xmm4, %xmm1, %xmm1 ; AVX2-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm2 ; AVX2-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1 ; AVX2-FALLBACK-NEXT: vpmuludq %xmm3, %xmm1, %xmm1 @@ -994,10 +989,9 @@ define <2 x i64> @vec128_i64_signed_reg_reg(<2 x i64> %a1, <2 x i64> %a2) nounwi ; XOP: # %bb.0: ; XOP-NEXT: vpcomgtq %xmm1, %xmm0, %xmm2 ; XOP-NEXT: vpor {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm3 -; XOP-NEXT: vpcomltq %xmm1, %xmm0, %xmm4 -; XOP-NEXT: vblendvpd %xmm4, %xmm0, %xmm1, %xmm4 -; XOP-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1 -; XOP-NEXT: vpsubq %xmm4, %xmm1, %xmm1 +; XOP-NEXT: vpsubq %xmm1, %xmm0, %xmm4 +; XOP-NEXT: vpsubq %xmm0, %xmm1, %xmm1 +; XOP-NEXT: vblendvpd %xmm2, %xmm4, %xmm1, %xmm1 ; XOP-NEXT: vpsrlq $1, %xmm1, %xmm2 ; XOP-NEXT: vpsrlq $33, %xmm1, %xmm1 ; XOP-NEXT: vpmuludq %xmm3, %xmm1, %xmm1 @@ -1130,39 +1124,34 @@ define <2 x i64> @vec128_i64_unsigned_reg_reg(<2 x i64> %a1, <2 x i64> %a2) noun ; SSE41: # %bb.0: ; SSE41-NEXT: movdqa %xmm0, %xmm2 ; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [9223372039002259456,9223372039002259456] -; SSE41-NEXT: movdqa %xmm1, %xmm5 -; SSE41-NEXT: pxor %xmm0, %xmm5 +; SSE41-NEXT: movdqa %xmm1, %xmm3 +; SSE41-NEXT: pxor %xmm0, %xmm3 ; SSE41-NEXT: pxor %xmm2, %xmm0 -; SSE41-NEXT: movdqa %xmm0, %xmm3 -; SSE41-NEXT: pcmpgtd %xmm5, %xmm3 -; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm3[0,0,2,2] -; SSE41-NEXT: movdqa %xmm0, %xmm6 -; SSE41-NEXT: pcmpeqd %xmm5, %xmm6 -; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm6[1,1,3,3] -; SSE41-NEXT: pand %xmm4, %xmm7 -; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm3[1,1,3,3] -; SSE41-NEXT: por %xmm7, %xmm3 -; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [1,1] -; SSE41-NEXT: por %xmm3, %xmm4 -; SSE41-NEXT: pcmpgtd %xmm0, %xmm5 -; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2] -; SSE41-NEXT: pand %xmm6, %xmm0 -; SSE41-NEXT: por %xmm5, %xmm0 -; SSE41-NEXT: movdqa %xmm1, %xmm5 -; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm5 -; SSE41-NEXT: movdqa %xmm3, %xmm0 -; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1 -; SSE41-NEXT: psubq %xmm5, %xmm1 -; SSE41-NEXT: movdqa %xmm1, %xmm0 +; SSE41-NEXT: movdqa %xmm0, %xmm4 +; SSE41-NEXT: pcmpgtd %xmm3, %xmm4 +; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2] +; SSE41-NEXT: pcmpeqd %xmm3, %xmm0 +; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,1,3,3] +; SSE41-NEXT: pand %xmm5, %xmm3 +; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm4[1,1,3,3] +; SSE41-NEXT: por %xmm3, %xmm6 +; SSE41-NEXT: por {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm6 +; SSE41-NEXT: pand %xmm5, %xmm0 +; SSE41-NEXT: por %xmm4, %xmm0 +; SSE41-NEXT: movdqa %xmm2, %xmm3 +; SSE41-NEXT: psubq %xmm1, %xmm3 +; SSE41-NEXT: psubq %xmm2, %xmm1 +; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm1 +; SSE41-NEXT: movapd %xmm1, %xmm0 ; SSE41-NEXT: psrlq $1, %xmm0 ; SSE41-NEXT: psrlq $33, %xmm1 -; SSE41-NEXT: pmuludq %xmm4, %xmm1 -; SSE41-NEXT: movdqa %xmm4, %xmm3 +; SSE41-NEXT: pmuludq %xmm6, %xmm1 +; SSE41-NEXT: movdqa %xmm6, %xmm3 ; SSE41-NEXT: psrlq $32, %xmm3 ; SSE41-NEXT: pmuludq %xmm0, %xmm3 ; SSE41-NEXT: paddq %xmm1, %xmm3 ; SSE41-NEXT: psllq $32, %xmm3 -; SSE41-NEXT: pmuludq %xmm4, %xmm0 +; SSE41-NEXT: pmuludq %xmm6, %xmm0 ; SSE41-NEXT: paddq %xmm2, %xmm0 ; SSE41-NEXT: paddq %xmm3, %xmm0 ; SSE41-NEXT: retq @@ -1172,20 +1161,19 @@ define <2 x i64> @vec128_i64_unsigned_reg_reg(<2 x i64> %a1, <2 x i64> %a2) noun ; AVX1-FALLBACK-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808] ; AVX1-FALLBACK-NEXT: vpxor %xmm2, %xmm1, %xmm3 ; AVX1-FALLBACK-NEXT: vpxor %xmm2, %xmm0, %xmm2 -; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm4 -; AVX1-FALLBACK-NEXT: vpor {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm4, %xmm5 -; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm2 -; AVX1-FALLBACK-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm2 -; AVX1-FALLBACK-NEXT: vblendvpd %xmm4, %xmm0, %xmm1, %xmm1 -; AVX1-FALLBACK-NEXT: vpsubq %xmm2, %xmm1, %xmm1 +; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm2 +; AVX1-FALLBACK-NEXT: vpor {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm3 +; AVX1-FALLBACK-NEXT: vpsubq %xmm1, %xmm0, %xmm4 +; AVX1-FALLBACK-NEXT: vpsubq %xmm0, %xmm1, %xmm1 +; AVX1-FALLBACK-NEXT: vblendvpd %xmm2, %xmm4, %xmm1, %xmm1 ; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm2 ; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1 -; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm1, %xmm1 -; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm3 -; AVX1-FALLBACK-NEXT: vpmuludq %xmm3, %xmm2, %xmm3 -; AVX1-FALLBACK-NEXT: vpaddq %xmm1, %xmm3, %xmm1 +; AVX1-FALLBACK-NEXT: vpmuludq %xmm3, %xmm1, %xmm1 +; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm3, %xmm4 +; AVX1-FALLBACK-NEXT: vpmuludq %xmm4, %xmm2, %xmm4 +; AVX1-FALLBACK-NEXT: vpaddq %xmm1, %xmm4, %xmm1 ; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm1, %xmm1 -; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm2, %xmm2 +; AVX1-FALLBACK-NEXT: vpmuludq %xmm3, %xmm2, %xmm2 ; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm2, %xmm0 ; AVX1-FALLBACK-NEXT: vpaddq %xmm1, %xmm0, %xmm0 ; AVX1-FALLBACK-NEXT: retq @@ -1195,20 +1183,19 @@ define <2 x i64> @vec128_i64_unsigned_reg_reg(<2 x i64> %a1, <2 x i64> %a2) noun ; AVX2-FALLBACK-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808] ; AVX2-FALLBACK-NEXT: vpxor %xmm2, %xmm1, %xmm3 ; AVX2-FALLBACK-NEXT: vpxor %xmm2, %xmm0, %xmm2 -; AVX2-FALLBACK-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm4 -; AVX2-FALLBACK-NEXT: vpor {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm4, %xmm5 -; AVX2-FALLBACK-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm2 -; AVX2-FALLBACK-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm2 -; AVX2-FALLBACK-NEXT: vblendvpd %xmm4, %xmm0, %xmm1, %xmm1 -; AVX2-FALLBACK-NEXT: vpsubq %xmm2, %xmm1, %xmm1 +; AVX2-FALLBACK-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm2 +; AVX2-FALLBACK-NEXT: vpor {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm3 +; AVX2-FALLBACK-NEXT: vpsubq %xmm1, %xmm0, %xmm4 +; AVX2-FALLBACK-NEXT: vpsubq %xmm0, %xmm1, %xmm1 +; AVX2-FALLBACK-NEXT: vblendvpd %xmm2, %xmm4, %xmm1, %xmm1 ; AVX2-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm2 ; AVX2-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1 -; AVX2-FALLBACK-NEXT: vpmuludq %xmm5, %xmm1, %xmm1 -; AVX2-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm3 -; AVX2-FALLBACK-NEXT: vpmuludq %xmm3, %xmm2, %xmm3 -; AVX2-FALLBACK-NEXT: vpaddq %xmm1, %xmm3, %xmm1 +; AVX2-FALLBACK-NEXT: vpmuludq %xmm3, %xmm1, %xmm1 +; AVX2-FALLBACK-NEXT: vpsrlq $32, %xmm3, %xmm4 +; AVX2-FALLBACK-NEXT: vpmuludq %xmm4, %xmm2, %xmm4 +; AVX2-FALLBACK-NEXT: vpaddq %xmm1, %xmm4, %xmm1 ; AVX2-FALLBACK-NEXT: vpsllq $32, %xmm1, %xmm1 -; AVX2-FALLBACK-NEXT: vpmuludq %xmm5, %xmm2, %xmm2 +; AVX2-FALLBACK-NEXT: vpmuludq %xmm3, %xmm2, %xmm2 ; AVX2-FALLBACK-NEXT: vpaddq %xmm0, %xmm2, %xmm0 ; AVX2-FALLBACK-NEXT: vpaddq %xmm1, %xmm0, %xmm0 ; AVX2-FALLBACK-NEXT: retq @@ -1217,10 +1204,9 @@ define <2 x i64> @vec128_i64_unsigned_reg_reg(<2 x i64> %a1, <2 x i64> %a2) noun ; XOP: # %bb.0: ; XOP-NEXT: vpcomgtuq %xmm1, %xmm0, %xmm2 ; XOP-NEXT: vpor {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm3 -; XOP-NEXT: vpcomltuq %xmm1, %xmm0, %xmm4 -; XOP-NEXT: vblendvpd %xmm4, %xmm0, %xmm1, %xmm4 -; XOP-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1 -; XOP-NEXT: vpsubq %xmm4, %xmm1, %xmm1 +; XOP-NEXT: vpsubq %xmm1, %xmm0, %xmm4 +; XOP-NEXT: vpsubq %xmm0, %xmm1, %xmm1 +; XOP-NEXT: vblendvpd %xmm2, %xmm4, %xmm1, %xmm1 ; XOP-NEXT: vpsrlq $1, %xmm1, %xmm2 ; XOP-NEXT: vpsrlq $33, %xmm1, %xmm1 ; XOP-NEXT: vpmuludq %xmm3, %xmm1, %xmm1 @@ -1355,43 +1341,38 @@ define <2 x i64> @vec128_i64_signed_mem_reg(ptr %a1_addr, <2 x i64> %a2) nounwin ; SSE41-LABEL: vec128_i64_signed_mem_reg: ; SSE41: # %bb.0: ; SSE41-NEXT: movdqa %xmm0, %xmm1 -; SSE41-NEXT: movdqa (%rdi), %xmm3 +; SSE41-NEXT: movdqa (%rdi), %xmm2 ; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [2147483648,2147483648] -; SSE41-NEXT: movdqa %xmm1, %xmm5 -; SSE41-NEXT: pxor %xmm0, %xmm5 -; SSE41-NEXT: pxor %xmm3, %xmm0 -; SSE41-NEXT: movdqa %xmm0, %xmm2 -; SSE41-NEXT: pcmpgtd %xmm5, %xmm2 -; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm2[0,0,2,2] -; SSE41-NEXT: movdqa %xmm0, %xmm6 -; SSE41-NEXT: pcmpeqd %xmm5, %xmm6 -; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm6[1,1,3,3] -; SSE41-NEXT: pand %xmm4, %xmm7 -; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3] -; SSE41-NEXT: por %xmm7, %xmm2 -; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [1,1] -; SSE41-NEXT: por %xmm2, %xmm4 -; SSE41-NEXT: pcmpgtd %xmm0, %xmm5 -; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2] -; SSE41-NEXT: pand %xmm6, %xmm0 -; SSE41-NEXT: por %xmm5, %xmm0 -; SSE41-NEXT: movdqa %xmm1, %xmm5 -; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm5 -; SSE41-NEXT: movdqa %xmm2, %xmm0 +; SSE41-NEXT: movdqa %xmm1, %xmm3 +; SSE41-NEXT: pxor %xmm0, %xmm3 +; SSE41-NEXT: pxor %xmm2, %xmm0 +; SSE41-NEXT: movdqa %xmm0, %xmm4 +; SSE41-NEXT: pcmpgtd %xmm3, %xmm4 +; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2] +; SSE41-NEXT: pcmpeqd %xmm3, %xmm0 +; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,1,3,3] +; SSE41-NEXT: pand %xmm5, %xmm3 +; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm4[1,1,3,3] +; SSE41-NEXT: por %xmm3, %xmm6 +; SSE41-NEXT: por {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm6 +; SSE41-NEXT: pand %xmm5, %xmm0 +; SSE41-NEXT: por %xmm4, %xmm0 +; SSE41-NEXT: movdqa %xmm2, %xmm3 +; SSE41-NEXT: psubq %xmm1, %xmm3 +; SSE41-NEXT: psubq %xmm2, %xmm1 ; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm1 -; SSE41-NEXT: psubq %xmm5, %xmm1 -; SSE41-NEXT: movdqa %xmm1, %xmm0 +; SSE41-NEXT: movapd %xmm1, %xmm0 ; SSE41-NEXT: psrlq $1, %xmm0 ; SSE41-NEXT: psrlq $33, %xmm1 -; SSE41-NEXT: pmuludq %xmm4, %xmm1 -; SSE41-NEXT: movdqa %xmm4, %xmm2 -; SSE41-NEXT: psrlq $32, %xmm2 -; SSE41-NEXT: pmuludq %xmm0, %xmm2 -; SSE41-NEXT: paddq %xmm1, %xmm2 -; SSE41-NEXT: psllq $32, %xmm2 -; SSE41-NEXT: pmuludq %xmm4, %xmm0 -; SSE41-NEXT: paddq %xmm3, %xmm0 +; SSE41-NEXT: pmuludq %xmm6, %xmm1 +; SSE41-NEXT: movdqa %xmm6, %xmm3 +; SSE41-NEXT: psrlq $32, %xmm3 +; SSE41-NEXT: pmuludq %xmm0, %xmm3 +; SSE41-NEXT: paddq %xmm1, %xmm3 +; SSE41-NEXT: psllq $32, %xmm3 +; SSE41-NEXT: pmuludq %xmm6, %xmm0 ; SSE41-NEXT: paddq %xmm2, %xmm0 +; SSE41-NEXT: paddq %xmm3, %xmm0 ; SSE41-NEXT: retq ; ; AVX1-FALLBACK-LABEL: vec128_i64_signed_mem_reg: @@ -1399,9 +1380,9 @@ define <2 x i64> @vec128_i64_signed_mem_reg(ptr %a1_addr, <2 x i64> %a2) nounwin ; AVX1-FALLBACK-NEXT: vmovdqa (%rdi), %xmm1 ; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm2 ; AVX1-FALLBACK-NEXT: vpor {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm3 -; AVX1-FALLBACK-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm4 -; AVX1-FALLBACK-NEXT: vblendvpd %xmm2, %xmm1, %xmm0, %xmm0 -; AVX1-FALLBACK-NEXT: vpsubq %xmm4, %xmm0, %xmm0 +; AVX1-FALLBACK-NEXT: vpsubq %xmm0, %xmm1, %xmm4 +; AVX1-FALLBACK-NEXT: vpsubq %xmm1, %xmm0, %xmm0 +; AVX1-FALLBACK-NEXT: vblendvpd %xmm2, %xmm4, %xmm0, %xmm0 ; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm0, %xmm2 ; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm0, %xmm0 ; AVX1-FALLBACK-NEXT: vpmuludq %xmm3, %xmm0, %xmm0 @@ -1419,9 +1400,9 @@ define <2 x i64> @vec128_i64_signed_mem_reg(ptr %a1_addr, <2 x i64> %a2) nounwin ; AVX2-FALLBACK-NEXT: vmovdqa (%rdi), %xmm1 ; AVX2-FALLBACK-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm2 ; AVX2-FALLBACK-NEXT: vpor {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm3 -; AVX2-FALLBACK-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm4 -; AVX2-FALLBACK-NEXT: vblendvpd %xmm2, %xmm1, %xmm0, %xmm0 -; AVX2-FALLBACK-NEXT: vpsubq %xmm4, %xmm0, %xmm0 +; AVX2-FALLBACK-NEXT: vpsubq %xmm0, %xmm1, %xmm4 +; AVX2-FALLBACK-NEXT: vpsubq %xmm1, %xmm0, %xmm0 +; AVX2-FALLBACK-NEXT: vblendvpd %xmm2, %xmm4, %xmm0, %xmm0 ; AVX2-FALLBACK-NEXT: vpsrlq $1, %xmm0, %xmm2 ; AVX2-FALLBACK-NEXT: vpsrlq $33, %xmm0, %xmm0 ; AVX2-FALLBACK-NEXT: vpmuludq %xmm3, %xmm0, %xmm0 @@ -1439,10 +1420,9 @@ define <2 x i64> @vec128_i64_signed_mem_reg(ptr %a1_addr, <2 x i64> %a2) nounwin ; XOP-NEXT: vmovdqa (%rdi), %xmm1 ; XOP-NEXT: vpcomgtq %xmm0, %xmm1, %xmm2 ; XOP-NEXT: vpor {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm3 -; XOP-NEXT: vpcomltq %xmm0, %xmm1, %xmm4 -; XOP-NEXT: vblendvpd %xmm4, %xmm1, %xmm0, %xmm4 -; XOP-NEXT: vblendvpd %xmm2, %xmm1, %xmm0, %xmm0 -; XOP-NEXT: vpsubq %xmm4, %xmm0, %xmm0 +; XOP-NEXT: vpsubq %xmm0, %xmm1, %xmm4 +; XOP-NEXT: vpsubq %xmm1, %xmm0, %xmm0 +; XOP-NEXT: vblendvpd %xmm2, %xmm4, %xmm0, %xmm0 ; XOP-NEXT: vpsrlq $1, %xmm0, %xmm2 ; XOP-NEXT: vpsrlq $33, %xmm0, %xmm0 ; XOP-NEXT: vpmuludq %xmm3, %xmm0, %xmm0 @@ -1577,42 +1557,38 @@ define <2 x i64> @vec128_i64_signed_reg_mem(<2 x i64> %a1, ptr %a2_addr) nounwin ; SSE41-LABEL: vec128_i64_signed_reg_mem: ; SSE41: # %bb.0: ; SSE41-NEXT: movdqa %xmm0, %xmm1 -; SSE41-NEXT: movdqa (%rdi), %xmm3 -; SSE41-NEXT: movdqa {{.*#+}} xmm5 = [2147483648,2147483648] -; SSE41-NEXT: pxor %xmm5, %xmm0 -; SSE41-NEXT: pxor %xmm3, %xmm5 -; SSE41-NEXT: movdqa %xmm0, %xmm2 -; SSE41-NEXT: pcmpgtd %xmm5, %xmm2 -; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm2[0,0,2,2] -; SSE41-NEXT: movdqa %xmm0, %xmm6 -; SSE41-NEXT: pcmpeqd %xmm5, %xmm6 -; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm6[1,1,3,3] -; SSE41-NEXT: pand %xmm4, %xmm7 -; SSE41-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3] -; SSE41-NEXT: por %xmm7, %xmm2 -; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [1,1] -; SSE41-NEXT: por %xmm2, %xmm4 -; SSE41-NEXT: pcmpgtd %xmm0, %xmm5 -; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2] -; SSE41-NEXT: pand %xmm6, %xmm0 -; SSE41-NEXT: por %xmm5, %xmm0 -; SSE41-NEXT: movdqa %xmm3, %xmm5 -; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm5 -; SSE41-NEXT: movdqa %xmm2, %xmm0 -; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm3 -; SSE41-NEXT: psubq %xmm5, %xmm3 -; SSE41-NEXT: movdqa %xmm3, %xmm0 +; SSE41-NEXT: movdqa (%rdi), %xmm2 +; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [2147483648,2147483648] +; SSE41-NEXT: movdqa %xmm1, %xmm3 +; SSE41-NEXT: pxor %xmm0, %xmm3 +; SSE41-NEXT: pxor %xmm2, %xmm0 +; SSE41-NEXT: movdqa %xmm3, %xmm4 +; SSE41-NEXT: pcmpgtd %xmm0, %xmm4 +; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2] +; SSE41-NEXT: pcmpeqd %xmm3, %xmm0 +; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,1,3,3] +; SSE41-NEXT: pand %xmm5, %xmm3 +; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm4[1,1,3,3] +; SSE41-NEXT: por %xmm3, %xmm6 +; SSE41-NEXT: por {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm6 +; SSE41-NEXT: pand %xmm5, %xmm0 +; SSE41-NEXT: por %xmm4, %xmm0 +; SSE41-NEXT: movdqa %xmm1, %xmm3 +; SSE41-NEXT: psubq %xmm2, %xmm3 +; SSE41-NEXT: psubq %xmm1, %xmm2 +; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm2 +; SSE41-NEXT: movapd %xmm2, %xmm0 ; SSE41-NEXT: psrlq $1, %xmm0 -; SSE41-NEXT: psrlq $33, %xmm3 -; SSE41-NEXT: pmuludq %xmm4, %xmm3 -; SSE41-NEXT: movdqa %xmm4, %xmm2 -; SSE41-NEXT: psrlq $32, %xmm2 -; SSE41-NEXT: pmuludq %xmm0, %xmm2 -; SSE41-NEXT: paddq %xmm3, %xmm2 -; SSE41-NEXT: psllq $32, %xmm2 -; SSE41-NEXT: pmuludq %xmm4, %xmm0 +; SSE41-NEXT: psrlq $33, %xmm2 +; SSE41-NEXT: pmuludq %xmm6, %xmm2 +; SSE41-NEXT: movdqa %xmm6, %xmm3 +; SSE41-NEXT: psrlq $32, %xmm3 +; SSE41-NEXT: pmuludq %xmm0, %xmm3 +; SSE41-NEXT: paddq %xmm2, %xmm3 +; SSE41-NEXT: psllq $32, %xmm3 +; SSE41-NEXT: pmuludq %xmm6, %xmm0 ; SSE41-NEXT: paddq %xmm1, %xmm0 -; SSE41-NEXT: paddq %xmm2, %xmm0 +; SSE41-NEXT: paddq %xmm3, %xmm0 ; SSE41-NEXT: retq ; ; AVX1-FALLBACK-LABEL: vec128_i64_signed_reg_mem: @@ -1620,9 +1596,9 @@ define <2 x i64> @vec128_i64_signed_reg_mem(<2 x i64> %a1, ptr %a2_addr) nounwin ; AVX1-FALLBACK-NEXT: vmovdqa (%rdi), %xmm1 ; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2 ; AVX1-FALLBACK-NEXT: vpor {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm3 -; AVX1-FALLBACK-NEXT: vblendvpd %xmm2, %xmm1, %xmm0, %xmm4 -; AVX1-FALLBACK-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1 -; AVX1-FALLBACK-NEXT: vpsubq %xmm4, %xmm1, %xmm1 +; AVX1-FALLBACK-NEXT: vpsubq %xmm1, %xmm0, %xmm4 +; AVX1-FALLBACK-NEXT: vpsubq %xmm0, %xmm1, %xmm1 +; AVX1-FALLBACK-NEXT: vblendvpd %xmm2, %xmm4, %xmm1, %xmm1 ; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm2 ; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1 ; AVX1-FALLBACK-NEXT: vpmuludq %xmm3, %xmm1, %xmm1 @@ -1640,9 +1616,9 @@ define <2 x i64> @vec128_i64_signed_reg_mem(<2 x i64> %a1, ptr %a2_addr) nounwin ; AVX2-FALLBACK-NEXT: vmovdqa (%rdi), %xmm1 ; AVX2-FALLBACK-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2 ; AVX2-FALLBACK-NEXT: vpor {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm3 -; AVX2-FALLBACK-NEXT: vblendvpd %xmm2, %xmm1, %xmm0, %xmm4 -; AVX2-FALLBACK-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1 -; AVX2-FALLBACK-NEXT: vpsubq %xmm4, %xmm1, %xmm1 +; AVX2-FALLBACK-NEXT: vpsubq %xmm1, %xmm0, %xmm4 +; AVX2-FALLBACK-NEXT: vpsubq %xmm0, %xmm1, %xmm1 +; AVX2-FALLBACK-NEXT: vblendvpd %xmm2, %xmm4, %xmm1, %xmm1 ; AVX2-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm2 ; AVX2-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1 ; AVX2-FALLBACK-NEXT: vpmuludq %xmm3, %xmm1, %xmm1 @@ -1660,10 +1636,9 @@ define <2 x i64> @vec128_i64_signed_reg_mem(<2 x i64> %a1, ptr %a2_addr) nounwin ; XOP-NEXT: vmovdqa (%rdi), %xmm1 ; XOP-NEXT: vpcomgtq %xmm1, %xmm0, %xmm2 ; XOP-NEXT: vpor {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm3 -; XOP-NEXT: vpcomltq %xmm1, %xmm0, %xmm4 -; XOP-NEXT: vblendvpd %xmm4, %xmm0, %xmm1, %xmm4 -; XOP-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1 -; XOP-NEXT: vpsubq %xmm4, %xmm1, %xmm1 +; XOP-NEXT: vpsubq %xmm1, %xmm0, %xmm4 +; XOP-NEXT: vpsubq %xmm0, %xmm1, %xmm1 +; XOP-NEXT: vblendvpd %xmm2, %xmm4, %xmm1, %xmm1 ; XOP-NEXT: vpsrlq $1, %xmm1, %xmm2 ; XOP-NEXT: vpsrlq $33, %xmm1, %xmm1 ; XOP-NEXT: vpmuludq %xmm3, %xmm1, %xmm1 @@ -1798,44 +1773,39 @@ define <2 x i64> @vec128_i64_signed_mem_mem(ptr %a1_addr, ptr %a2_addr) nounwind ; ; SSE41-LABEL: vec128_i64_signed_mem_mem: ; SSE41: # %bb.0: -; SSE41-NEXT: movdqa (%rdi), %xmm2 -; SSE41-NEXT: movdqa (%rsi), %xmm3 +; SSE41-NEXT: movdqa (%rdi), %xmm1 +; SSE41-NEXT: movdqa (%rsi), %xmm2 ; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [2147483648,2147483648] -; SSE41-NEXT: movdqa %xmm3, %xmm5 -; SSE41-NEXT: pxor %xmm0, %xmm5 -; SSE41-NEXT: pxor %xmm2, %xmm0 -; SSE41-NEXT: movdqa %xmm0, %xmm1 -; SSE41-NEXT: pcmpgtd %xmm5, %xmm1 -; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm1[0,0,2,2] -; SSE41-NEXT: movdqa %xmm0, %xmm6 -; SSE41-NEXT: pcmpeqd %xmm5, %xmm6 -; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm6[1,1,3,3] -; SSE41-NEXT: pand %xmm4, %xmm7 -; SSE41-NEXT: pshufd {{.*#+}} xmm1 = xmm1[1,1,3,3] -; SSE41-NEXT: por %xmm7, %xmm1 -; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [1,1] -; SSE41-NEXT: por %xmm1, %xmm4 -; SSE41-NEXT: pcmpgtd %xmm0, %xmm5 -; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2] -; SSE41-NEXT: pand %xmm6, %xmm0 -; SSE41-NEXT: por %xmm5, %xmm0 -; SSE41-NEXT: movdqa %xmm3, %xmm5 -; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm5 -; SSE41-NEXT: movdqa %xmm1, %xmm0 -; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm3 -; SSE41-NEXT: psubq %xmm5, %xmm3 -; SSE41-NEXT: movdqa %xmm3, %xmm0 +; SSE41-NEXT: movdqa %xmm2, %xmm3 +; SSE41-NEXT: pxor %xmm0, %xmm3 +; SSE41-NEXT: pxor %xmm1, %xmm0 +; SSE41-NEXT: movdqa %xmm0, %xmm4 +; SSE41-NEXT: pcmpgtd %xmm3, %xmm4 +; SSE41-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2] +; SSE41-NEXT: pcmpeqd %xmm3, %xmm0 +; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm0[1,1,3,3] +; SSE41-NEXT: pand %xmm5, %xmm3 +; SSE41-NEXT: pshufd {{.*#+}} xmm6 = xmm4[1,1,3,3] +; SSE41-NEXT: por %xmm3, %xmm6 +; SSE41-NEXT: por {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm6 +; SSE41-NEXT: pand %xmm5, %xmm0 +; SSE41-NEXT: por %xmm4, %xmm0 +; SSE41-NEXT: movdqa %xmm1, %xmm3 +; SSE41-NEXT: psubq %xmm2, %xmm3 +; SSE41-NEXT: psubq %xmm1, %xmm2 +; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm2 +; SSE41-NEXT: movapd %xmm2, %xmm0 ; SSE41-NEXT: psrlq $1, %xmm0 -; SSE41-NEXT: psrlq $33, %xmm3 -; SSE41-NEXT: pmuludq %xmm4, %xmm3 -; SSE41-NEXT: movdqa %xmm4, %xmm1 -; SSE41-NEXT: psrlq $32, %xmm1 -; SSE41-NEXT: pmuludq %xmm0, %xmm1 -; SSE41-NEXT: paddq %xmm3, %xmm1 -; SSE41-NEXT: psllq $32, %xmm1 -; SSE41-NEXT: pmuludq %xmm4, %xmm0 -; SSE41-NEXT: paddq %xmm2, %xmm0 +; SSE41-NEXT: psrlq $33, %xmm2 +; SSE41-NEXT: pmuludq %xmm6, %xmm2 +; SSE41-NEXT: movdqa %xmm6, %xmm3 +; SSE41-NEXT: psrlq $32, %xmm3 +; SSE41-NEXT: pmuludq %xmm0, %xmm3 +; SSE41-NEXT: paddq %xmm2, %xmm3 +; SSE41-NEXT: psllq $32, %xmm3 +; SSE41-NEXT: pmuludq %xmm6, %xmm0 ; SSE41-NEXT: paddq %xmm1, %xmm0 +; SSE41-NEXT: paddq %xmm3, %xmm0 ; SSE41-NEXT: retq ; ; AVX1-FALLBACK-LABEL: vec128_i64_signed_mem_mem: @@ -1844,9 +1814,9 @@ define <2 x i64> @vec128_i64_signed_mem_mem(ptr %a1_addr, ptr %a2_addr) nounwind ; AVX1-FALLBACK-NEXT: vmovdqa (%rsi), %xmm1 ; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2 ; AVX1-FALLBACK-NEXT: vpor {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm3 -; AVX1-FALLBACK-NEXT: vblendvpd %xmm2, %xmm1, %xmm0, %xmm4 -; AVX1-FALLBACK-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1 -; AVX1-FALLBACK-NEXT: vpsubq %xmm4, %xmm1, %xmm1 +; AVX1-FALLBACK-NEXT: vpsubq %xmm1, %xmm0, %xmm4 +; AVX1-FALLBACK-NEXT: vpsubq %xmm0, %xmm1, %xmm1 +; AVX1-FALLBACK-NEXT: vblendvpd %xmm2, %xmm4, %xmm1, %xmm1 ; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm2 ; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1 ; AVX1-FALLBACK-NEXT: vpmuludq %xmm3, %xmm1, %xmm1 @@ -1865,9 +1835,9 @@ define <2 x i64> @vec128_i64_signed_mem_mem(ptr %a1_addr, ptr %a2_addr) nounwind ; AVX2-FALLBACK-NEXT: vmovdqa (%rsi), %xmm1 ; AVX2-FALLBACK-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2 ; AVX2-FALLBACK-NEXT: vpor {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm3 -; AVX2-FALLBACK-NEXT: vblendvpd %xmm2, %xmm1, %xmm0, %xmm4 -; AVX2-FALLBACK-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1 -; AVX2-FALLBACK-NEXT: vpsubq %xmm4, %xmm1, %xmm1 +; AVX2-FALLBACK-NEXT: vpsubq %xmm1, %xmm0, %xmm4 +; AVX2-FALLBACK-NEXT: vpsubq %xmm0, %xmm1, %xmm1 +; AVX2-FALLBACK-NEXT: vblendvpd %xmm2, %xmm4, %xmm1, %xmm1 ; AVX2-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm2 ; AVX2-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1 ; AVX2-FALLBACK-NEXT: vpmuludq %xmm3, %xmm1, %xmm1 @@ -1886,10 +1856,9 @@ define <2 x i64> @vec128_i64_signed_mem_mem(ptr %a1_addr, ptr %a2_addr) nounwind ; XOP-NEXT: vmovdqa (%rsi), %xmm1 ; XOP-NEXT: vpcomgtq %xmm1, %xmm0, %xmm2 ; XOP-NEXT: vpor {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm3 -; XOP-NEXT: vpcomltq %xmm1, %xmm0, %xmm4 -; XOP-NEXT: vblendvpd %xmm4, %xmm0, %xmm1, %xmm4 -; XOP-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1 -; XOP-NEXT: vpsubq %xmm4, %xmm1, %xmm1 +; XOP-NEXT: vpsubq %xmm1, %xmm0, %xmm4 +; XOP-NEXT: vpsubq %xmm0, %xmm1, %xmm1 +; XOP-NEXT: vblendvpd %xmm2, %xmm4, %xmm1, %xmm1 ; XOP-NEXT: vpsrlq $1, %xmm1, %xmm2 ; XOP-NEXT: vpsrlq $33, %xmm1, %xmm1 ; XOP-NEXT: vpmuludq %xmm3, %xmm1, %xmm1 diff --git a/llvm/test/CodeGen/X86/midpoint-int-vec-256.ll b/llvm/test/CodeGen/X86/midpoint-int-vec-256.ll index b00c0e6..da25504 100644 --- a/llvm/test/CodeGen/X86/midpoint-int-vec-256.ll +++ b/llvm/test/CodeGen/X86/midpoint-int-vec-256.ll @@ -475,40 +475,40 @@ define <8 x i32> @vec256_i32_signed_mem_mem(ptr %a1_addr, ptr %a2_addr) nounwind define <4 x i64> @vec256_i64_signed_reg_reg(<4 x i64> %a1, <4 x i64> %a2) nounwind { ; AVX1-FALLBACK-LABEL: vec256_i64_signed_reg_reg: ; AVX1-FALLBACK: # %bb.0: -; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm2 -; AVX1-FALLBACK-NEXT: vextractf128 $1, %ymm1, %xmm3 -; AVX1-FALLBACK-NEXT: vextractf128 $1, %ymm0, %xmm4 -; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm3, %xmm4, %xmm5 -; AVX1-FALLBACK-NEXT: vblendvpd %xmm5, %xmm3, %xmm4, %xmm6 -; AVX1-FALLBACK-NEXT: vblendvpd %xmm2, %xmm1, %xmm0, %xmm7 -; AVX1-FALLBACK-NEXT: vblendvpd %xmm5, %xmm4, %xmm3, %xmm3 -; AVX1-FALLBACK-NEXT: vpsubq %xmm6, %xmm3, %xmm3 -; AVX1-FALLBACK-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1 -; AVX1-FALLBACK-NEXT: vpsubq %xmm7, %xmm1, %xmm1 -; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm3, %xmm6 +; AVX1-FALLBACK-NEXT: vextractf128 $1, %ymm1, %xmm2 +; AVX1-FALLBACK-NEXT: vextractf128 $1, %ymm0, %xmm3 +; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm4 +; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm5 +; AVX1-FALLBACK-NEXT: vpsubq %xmm1, %xmm0, %xmm6 +; AVX1-FALLBACK-NEXT: vpsubq %xmm0, %xmm1, %xmm1 +; AVX1-FALLBACK-NEXT: vblendvpd %xmm5, %xmm6, %xmm1, %xmm1 +; AVX1-FALLBACK-NEXT: vpsubq %xmm2, %xmm3, %xmm6 +; AVX1-FALLBACK-NEXT: vpsubq %xmm3, %xmm2, %xmm2 +; AVX1-FALLBACK-NEXT: vblendvpd %xmm4, %xmm6, %xmm2, %xmm2 +; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm2, %xmm6 ; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm7 ; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1 ; AVX1-FALLBACK-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1] -; AVX1-FALLBACK-NEXT: vpor %xmm2, %xmm8, %xmm2 -; AVX1-FALLBACK-NEXT: vpmuludq %xmm2, %xmm1, %xmm1 -; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm2, %xmm9 +; AVX1-FALLBACK-NEXT: vpor %xmm5, %xmm8, %xmm5 +; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm1, %xmm1 +; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm9 ; AVX1-FALLBACK-NEXT: vpmuludq %xmm7, %xmm9, %xmm9 ; AVX1-FALLBACK-NEXT: vpaddq %xmm1, %xmm9, %xmm1 ; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm1, %xmm1 -; AVX1-FALLBACK-NEXT: vpmuludq %xmm2, %xmm7, %xmm2 -; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm3, %xmm3 -; AVX1-FALLBACK-NEXT: vpor %xmm5, %xmm8, %xmm5 -; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm3, %xmm3 -; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm7 +; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm7, %xmm5 +; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm2, %xmm2 +; AVX1-FALLBACK-NEXT: vpor %xmm4, %xmm8, %xmm4 +; AVX1-FALLBACK-NEXT: vpmuludq %xmm4, %xmm2, %xmm2 +; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm4, %xmm7 ; AVX1-FALLBACK-NEXT: vpmuludq %xmm7, %xmm6, %xmm7 -; AVX1-FALLBACK-NEXT: vpaddq %xmm3, %xmm7, %xmm3 -; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm3, %xmm3 -; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm6, %xmm5 -; AVX1-FALLBACK-NEXT: vpaddq %xmm4, %xmm5, %xmm4 +; AVX1-FALLBACK-NEXT: vpaddq %xmm2, %xmm7, %xmm2 +; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm2, %xmm2 +; AVX1-FALLBACK-NEXT: vpmuludq %xmm4, %xmm6, %xmm4 ; AVX1-FALLBACK-NEXT: vpaddq %xmm3, %xmm4, %xmm3 -; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm2, %xmm0 +; AVX1-FALLBACK-NEXT: vpaddq %xmm2, %xmm3, %xmm2 +; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm5, %xmm0 ; AVX1-FALLBACK-NEXT: vpaddq %xmm1, %xmm0, %xmm0 -; AVX1-FALLBACK-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0 +; AVX1-FALLBACK-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0 ; AVX1-FALLBACK-NEXT: retq ; ; AVX2-LABEL: vec256_i64_signed_reg_reg: @@ -516,9 +516,9 @@ define <4 x i64> @vec256_i64_signed_reg_reg(<4 x i64> %a1, <4 x i64> %a2) nounwi ; AVX2-NEXT: vpcmpgtq %ymm1, %ymm0, %ymm2 ; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm3 = [1,1,1,1] ; AVX2-NEXT: vpor %ymm3, %ymm2, %ymm3 -; AVX2-NEXT: vblendvpd %ymm2, %ymm1, %ymm0, %ymm4 -; AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm1 -; AVX2-NEXT: vpsubq %ymm4, %ymm1, %ymm1 +; AVX2-NEXT: vpsubq %ymm1, %ymm0, %ymm4 +; AVX2-NEXT: vpsubq %ymm0, %ymm1, %ymm1 +; AVX2-NEXT: vblendvpd %ymm2, %ymm4, %ymm1, %ymm1 ; AVX2-NEXT: vpsrlq $1, %ymm1, %ymm2 ; AVX2-NEXT: vpsrlq $33, %ymm1, %ymm1 ; AVX2-NEXT: vpmuludq %ymm3, %ymm1, %ymm1 @@ -533,82 +533,78 @@ define <4 x i64> @vec256_i64_signed_reg_reg(<4 x i64> %a1, <4 x i64> %a2) nounwi ; ; XOP-FALLBACK-LABEL: vec256_i64_signed_reg_reg: ; XOP-FALLBACK: # %bb.0: -; XOP-FALLBACK-NEXT: vpcomgtq %xmm1, %xmm0, %xmm2 -; XOP-FALLBACK-NEXT: vextractf128 $1, %ymm1, %xmm3 -; XOP-FALLBACK-NEXT: vextractf128 $1, %ymm0, %xmm4 -; XOP-FALLBACK-NEXT: vpcomgtq %xmm3, %xmm4, %xmm5 -; XOP-FALLBACK-NEXT: vpcomltq %xmm3, %xmm4, %xmm6 -; XOP-FALLBACK-NEXT: vblendvpd %xmm6, %xmm4, %xmm3, %xmm6 -; XOP-FALLBACK-NEXT: vpcomltq %xmm1, %xmm0, %xmm7 -; XOP-FALLBACK-NEXT: vblendvpd %xmm7, %xmm0, %xmm1, %xmm7 -; XOP-FALLBACK-NEXT: vblendvpd %xmm5, %xmm4, %xmm3, %xmm3 -; XOP-FALLBACK-NEXT: vpsubq %xmm6, %xmm3, %xmm3 -; XOP-FALLBACK-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1 -; XOP-FALLBACK-NEXT: vpsubq %xmm7, %xmm1, %xmm1 -; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm3, %xmm6 +; XOP-FALLBACK-NEXT: vextractf128 $1, %ymm1, %xmm2 +; XOP-FALLBACK-NEXT: vextractf128 $1, %ymm0, %xmm3 +; XOP-FALLBACK-NEXT: vpcomgtq %xmm2, %xmm3, %xmm4 +; XOP-FALLBACK-NEXT: vpcomgtq %xmm1, %xmm0, %xmm5 +; XOP-FALLBACK-NEXT: vpsubq %xmm1, %xmm0, %xmm6 +; XOP-FALLBACK-NEXT: vpsubq %xmm0, %xmm1, %xmm1 +; XOP-FALLBACK-NEXT: vblendvpd %xmm5, %xmm6, %xmm1, %xmm1 +; XOP-FALLBACK-NEXT: vpsubq %xmm2, %xmm3, %xmm6 +; XOP-FALLBACK-NEXT: vpsubq %xmm3, %xmm2, %xmm2 +; XOP-FALLBACK-NEXT: vblendvpd %xmm4, %xmm6, %xmm2, %xmm2 +; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm2, %xmm6 ; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm7 ; XOP-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1 ; XOP-FALLBACK-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1] -; XOP-FALLBACK-NEXT: vpor %xmm2, %xmm8, %xmm2 -; XOP-FALLBACK-NEXT: vpmuludq %xmm2, %xmm1, %xmm1 -; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm2, %xmm9 +; XOP-FALLBACK-NEXT: vpor %xmm5, %xmm8, %xmm5 +; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm1, %xmm1 +; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm9 ; XOP-FALLBACK-NEXT: vpmuludq %xmm7, %xmm9, %xmm9 ; XOP-FALLBACK-NEXT: vpaddq %xmm1, %xmm9, %xmm1 ; XOP-FALLBACK-NEXT: vpsllq $32, %xmm1, %xmm1 -; XOP-FALLBACK-NEXT: vpmuludq %xmm2, %xmm7, %xmm2 -; XOP-FALLBACK-NEXT: vpsrlq $33, %xmm3, %xmm3 -; XOP-FALLBACK-NEXT: vpor %xmm5, %xmm8, %xmm5 -; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm3, %xmm3 -; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm7 +; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm7, %xmm5 +; XOP-FALLBACK-NEXT: vpsrlq $33, %xmm2, %xmm2 +; XOP-FALLBACK-NEXT: vpor %xmm4, %xmm8, %xmm4 +; XOP-FALLBACK-NEXT: vpmuludq %xmm4, %xmm2, %xmm2 +; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm4, %xmm7 ; XOP-FALLBACK-NEXT: vpmuludq %xmm7, %xmm6, %xmm7 -; XOP-FALLBACK-NEXT: vpaddq %xmm3, %xmm7, %xmm3 -; XOP-FALLBACK-NEXT: vpsllq $32, %xmm3, %xmm3 -; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm6, %xmm5 -; XOP-FALLBACK-NEXT: vpaddq %xmm4, %xmm5, %xmm4 +; XOP-FALLBACK-NEXT: vpaddq %xmm2, %xmm7, %xmm2 +; XOP-FALLBACK-NEXT: vpsllq $32, %xmm2, %xmm2 +; XOP-FALLBACK-NEXT: vpmuludq %xmm4, %xmm6, %xmm4 ; XOP-FALLBACK-NEXT: vpaddq %xmm3, %xmm4, %xmm3 -; XOP-FALLBACK-NEXT: vpaddq %xmm0, %xmm2, %xmm0 +; XOP-FALLBACK-NEXT: vpaddq %xmm2, %xmm3, %xmm2 +; XOP-FALLBACK-NEXT: vpaddq %xmm0, %xmm5, %xmm0 ; XOP-FALLBACK-NEXT: vpaddq %xmm1, %xmm0, %xmm0 -; XOP-FALLBACK-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0 +; XOP-FALLBACK-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0 ; XOP-FALLBACK-NEXT: retq ; ; XOPAVX1-LABEL: vec256_i64_signed_reg_reg: ; XOPAVX1: # %bb.0: -; XOPAVX1-NEXT: vpcomgtq %xmm1, %xmm0, %xmm2 -; XOPAVX1-NEXT: vextractf128 $1, %ymm1, %xmm3 -; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm4 -; XOPAVX1-NEXT: vpcomgtq %xmm3, %xmm4, %xmm5 -; XOPAVX1-NEXT: vpcomltq %xmm3, %xmm4, %xmm6 -; XOPAVX1-NEXT: vblendvpd %xmm6, %xmm4, %xmm3, %xmm6 -; XOPAVX1-NEXT: vpcomltq %xmm1, %xmm0, %xmm7 -; XOPAVX1-NEXT: vblendvpd %xmm7, %xmm0, %xmm1, %xmm7 -; XOPAVX1-NEXT: vblendvpd %xmm5, %xmm4, %xmm3, %xmm3 -; XOPAVX1-NEXT: vpsubq %xmm6, %xmm3, %xmm3 -; XOPAVX1-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1 -; XOPAVX1-NEXT: vpsubq %xmm7, %xmm1, %xmm1 -; XOPAVX1-NEXT: vpsrlq $1, %xmm3, %xmm6 +; XOPAVX1-NEXT: vextractf128 $1, %ymm1, %xmm2 +; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm3 +; XOPAVX1-NEXT: vpcomgtq %xmm2, %xmm3, %xmm4 +; XOPAVX1-NEXT: vpcomgtq %xmm1, %xmm0, %xmm5 +; XOPAVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm6 +; XOPAVX1-NEXT: vpsubq %xmm0, %xmm1, %xmm1 +; XOPAVX1-NEXT: vblendvpd %xmm5, %xmm6, %xmm1, %xmm1 +; XOPAVX1-NEXT: vpsubq %xmm2, %xmm3, %xmm6 +; XOPAVX1-NEXT: vpsubq %xmm3, %xmm2, %xmm2 +; XOPAVX1-NEXT: vblendvpd %xmm4, %xmm6, %xmm2, %xmm2 +; XOPAVX1-NEXT: vpsrlq $1, %xmm2, %xmm6 ; XOPAVX1-NEXT: vpsrlq $1, %xmm1, %xmm7 ; XOPAVX1-NEXT: vpsrlq $33, %xmm1, %xmm1 ; XOPAVX1-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1] -; XOPAVX1-NEXT: vpor %xmm2, %xmm8, %xmm2 -; XOPAVX1-NEXT: vpmuludq %xmm2, %xmm1, %xmm1 -; XOPAVX1-NEXT: vpsrlq $32, %xmm2, %xmm9 +; XOPAVX1-NEXT: vpor %xmm5, %xmm8, %xmm5 +; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm1, %xmm1 +; XOPAVX1-NEXT: vpsrlq $32, %xmm5, %xmm9 ; XOPAVX1-NEXT: vpmuludq %xmm7, %xmm9, %xmm9 ; XOPAVX1-NEXT: vpaddq %xmm1, %xmm9, %xmm1 ; XOPAVX1-NEXT: vpsllq $32, %xmm1, %xmm1 -; XOPAVX1-NEXT: vpmuludq %xmm2, %xmm7, %xmm2 -; XOPAVX1-NEXT: vpsrlq $33, %xmm3, %xmm3 -; XOPAVX1-NEXT: vpor %xmm5, %xmm8, %xmm5 -; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm3, %xmm3 -; XOPAVX1-NEXT: vpsrlq $32, %xmm5, %xmm7 +; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm7, %xmm5 +; XOPAVX1-NEXT: vpsrlq $33, %xmm2, %xmm2 +; XOPAVX1-NEXT: vpor %xmm4, %xmm8, %xmm4 +; XOPAVX1-NEXT: vpmuludq %xmm4, %xmm2, %xmm2 +; XOPAVX1-NEXT: vpsrlq $32, %xmm4, %xmm7 ; XOPAVX1-NEXT: vpmuludq %xmm7, %xmm6, %xmm7 -; XOPAVX1-NEXT: vpaddq %xmm3, %xmm7, %xmm3 -; XOPAVX1-NEXT: vpsllq $32, %xmm3, %xmm3 -; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm6, %xmm5 -; XOPAVX1-NEXT: vpaddq %xmm4, %xmm5, %xmm4 +; XOPAVX1-NEXT: vpaddq %xmm2, %xmm7, %xmm2 +; XOPAVX1-NEXT: vpsllq $32, %xmm2, %xmm2 +; XOPAVX1-NEXT: vpmuludq %xmm4, %xmm6, %xmm4 ; XOPAVX1-NEXT: vpaddq %xmm3, %xmm4, %xmm3 -; XOPAVX1-NEXT: vpaddq %xmm0, %xmm2, %xmm0 +; XOPAVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2 +; XOPAVX1-NEXT: vpaddq %xmm0, %xmm5, %xmm0 ; XOPAVX1-NEXT: vpaddq %xmm1, %xmm0, %xmm0 -; XOPAVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0 +; XOPAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0 ; XOPAVX1-NEXT: retq ; ; AVX512F-LABEL: vec256_i64_signed_reg_reg: @@ -682,44 +678,42 @@ define <4 x i64> @vec256_i64_signed_reg_reg(<4 x i64> %a1, <4 x i64> %a2) nounwi define <4 x i64> @vec256_i64_unsigned_reg_reg(<4 x i64> %a1, <4 x i64> %a2) nounwind { ; AVX1-FALLBACK-LABEL: vec256_i64_unsigned_reg_reg: ; AVX1-FALLBACK: # %bb.0: -; AVX1-FALLBACK-NEXT: vmovdqa {{.*#+}} xmm2 = [9223372036854775808,9223372036854775808] -; AVX1-FALLBACK-NEXT: vpxor %xmm2, %xmm1, %xmm3 -; AVX1-FALLBACK-NEXT: vpxor %xmm2, %xmm0, %xmm4 -; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm3, %xmm4, %xmm5 -; AVX1-FALLBACK-NEXT: vextractf128 $1, %ymm1, %xmm6 -; AVX1-FALLBACK-NEXT: vpxor %xmm2, %xmm6, %xmm7 -; AVX1-FALLBACK-NEXT: vextractf128 $1, %ymm0, %xmm8 -; AVX1-FALLBACK-NEXT: vpxor %xmm2, %xmm8, %xmm2 -; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm7, %xmm2, %xmm9 -; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm2, %xmm7, %xmm2 -; AVX1-FALLBACK-NEXT: vblendvpd %xmm2, %xmm8, %xmm6, %xmm2 -; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm4, %xmm3, %xmm3 -; AVX1-FALLBACK-NEXT: vblendvpd %xmm3, %xmm0, %xmm1, %xmm3 -; AVX1-FALLBACK-NEXT: vblendvpd %xmm9, %xmm8, %xmm6, %xmm4 -; AVX1-FALLBACK-NEXT: vpsubq %xmm2, %xmm4, %xmm2 -; AVX1-FALLBACK-NEXT: vblendvpd %xmm5, %xmm0, %xmm1, %xmm1 -; AVX1-FALLBACK-NEXT: vpsubq %xmm3, %xmm1, %xmm1 -; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm2, %xmm3 -; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm4 +; AVX1-FALLBACK-NEXT: vextractf128 $1, %ymm1, %xmm3 +; AVX1-FALLBACK-NEXT: vmovdqa {{.*#+}} xmm4 = [9223372036854775808,9223372036854775808] +; AVX1-FALLBACK-NEXT: vpxor %xmm4, %xmm3, %xmm5 +; AVX1-FALLBACK-NEXT: vextractf128 $1, %ymm0, %xmm2 +; AVX1-FALLBACK-NEXT: vpxor %xmm4, %xmm2, %xmm6 +; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm5, %xmm6, %xmm5 +; AVX1-FALLBACK-NEXT: vpxor %xmm4, %xmm1, %xmm6 +; AVX1-FALLBACK-NEXT: vpxor %xmm4, %xmm0, %xmm4 +; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm6, %xmm4, %xmm4 +; AVX1-FALLBACK-NEXT: vpsubq %xmm1, %xmm0, %xmm6 +; AVX1-FALLBACK-NEXT: vpsubq %xmm0, %xmm1, %xmm1 +; AVX1-FALLBACK-NEXT: vblendvpd %xmm4, %xmm6, %xmm1, %xmm1 +; AVX1-FALLBACK-NEXT: vpsubq %xmm3, %xmm2, %xmm6 +; AVX1-FALLBACK-NEXT: vpsubq %xmm2, %xmm3, %xmm3 +; AVX1-FALLBACK-NEXT: vblendvpd %xmm5, %xmm6, %xmm3, %xmm3 +; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm3, %xmm6 +; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm7 +; AVX1-FALLBACK-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1] +; AVX1-FALLBACK-NEXT: vpor %xmm4, %xmm8, %xmm4 ; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1 -; AVX1-FALLBACK-NEXT: vmovdqa {{.*#+}} xmm6 = [1,1] -; AVX1-FALLBACK-NEXT: vpor %xmm6, %xmm5, %xmm5 -; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm1, %xmm1 -; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm7 -; AVX1-FALLBACK-NEXT: vpmuludq %xmm7, %xmm4, %xmm7 -; AVX1-FALLBACK-NEXT: vpaddq %xmm1, %xmm7, %xmm1 +; AVX1-FALLBACK-NEXT: vpmuludq %xmm4, %xmm1, %xmm1 +; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm4, %xmm9 +; AVX1-FALLBACK-NEXT: vpmuludq %xmm7, %xmm9, %xmm9 +; AVX1-FALLBACK-NEXT: vpaddq %xmm1, %xmm9, %xmm1 ; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm1, %xmm1 -; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm4, %xmm4 -; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm2, %xmm2 -; AVX1-FALLBACK-NEXT: vpor %xmm6, %xmm9, %xmm5 -; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm2, %xmm2 -; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm6 -; AVX1-FALLBACK-NEXT: vpmuludq %xmm6, %xmm3, %xmm6 -; AVX1-FALLBACK-NEXT: vpaddq %xmm2, %xmm6, %xmm2 -; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm2, %xmm2 +; AVX1-FALLBACK-NEXT: vpmuludq %xmm4, %xmm7, %xmm4 +; AVX1-FALLBACK-NEXT: vpor %xmm5, %xmm8, %xmm5 +; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm3, %xmm3 ; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm3, %xmm3 -; AVX1-FALLBACK-NEXT: vpaddq %xmm3, %xmm8, %xmm3 -; AVX1-FALLBACK-NEXT: vpaddq %xmm2, %xmm3, %xmm2 +; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm7 +; AVX1-FALLBACK-NEXT: vpmuludq %xmm7, %xmm6, %xmm7 +; AVX1-FALLBACK-NEXT: vpaddq %xmm3, %xmm7, %xmm3 +; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm3, %xmm3 +; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm6, %xmm5 +; AVX1-FALLBACK-NEXT: vpaddq %xmm2, %xmm5, %xmm2 +; AVX1-FALLBACK-NEXT: vpaddq %xmm3, %xmm2, %xmm2 ; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm4, %xmm0 ; AVX1-FALLBACK-NEXT: vpaddq %xmm1, %xmm0, %xmm0 ; AVX1-FALLBACK-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0 @@ -730,103 +724,98 @@ define <4 x i64> @vec256_i64_unsigned_reg_reg(<4 x i64> %a1, <4 x i64> %a2) noun ; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808] ; AVX2-NEXT: vpxor %ymm2, %ymm1, %ymm3 ; AVX2-NEXT: vpxor %ymm2, %ymm0, %ymm2 -; AVX2-NEXT: vpcmpgtq %ymm3, %ymm2, %ymm4 -; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm5 = [1,1,1,1] -; AVX2-NEXT: vpor %ymm5, %ymm4, %ymm5 -; AVX2-NEXT: vpcmpgtq %ymm2, %ymm3, %ymm2 -; AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm2 -; AVX2-NEXT: vblendvpd %ymm4, %ymm0, %ymm1, %ymm1 -; AVX2-NEXT: vpsubq %ymm2, %ymm1, %ymm1 +; AVX2-NEXT: vpcmpgtq %ymm3, %ymm2, %ymm2 +; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm3 = [1,1,1,1] +; AVX2-NEXT: vpor %ymm3, %ymm2, %ymm3 +; AVX2-NEXT: vpsubq %ymm1, %ymm0, %ymm4 +; AVX2-NEXT: vpsubq %ymm0, %ymm1, %ymm1 +; AVX2-NEXT: vblendvpd %ymm2, %ymm4, %ymm1, %ymm1 ; AVX2-NEXT: vpsrlq $1, %ymm1, %ymm2 ; AVX2-NEXT: vpsrlq $33, %ymm1, %ymm1 -; AVX2-NEXT: vpmuludq %ymm5, %ymm1, %ymm1 -; AVX2-NEXT: vpsrlq $32, %ymm5, %ymm3 -; AVX2-NEXT: vpmuludq %ymm3, %ymm2, %ymm3 -; AVX2-NEXT: vpaddq %ymm1, %ymm3, %ymm1 +; AVX2-NEXT: vpmuludq %ymm3, %ymm1, %ymm1 +; AVX2-NEXT: vpsrlq $32, %ymm3, %ymm4 +; AVX2-NEXT: vpmuludq %ymm4, %ymm2, %ymm4 +; AVX2-NEXT: vpaddq %ymm1, %ymm4, %ymm1 ; AVX2-NEXT: vpsllq $32, %ymm1, %ymm1 -; AVX2-NEXT: vpmuludq %ymm5, %ymm2, %ymm2 +; AVX2-NEXT: vpmuludq %ymm3, %ymm2, %ymm2 ; AVX2-NEXT: vpaddq %ymm0, %ymm2, %ymm0 ; AVX2-NEXT: vpaddq %ymm1, %ymm0, %ymm0 ; AVX2-NEXT: retq ; ; XOP-FALLBACK-LABEL: vec256_i64_unsigned_reg_reg: ; XOP-FALLBACK: # %bb.0: -; XOP-FALLBACK-NEXT: vpcomgtuq %xmm1, %xmm0, %xmm2 -; XOP-FALLBACK-NEXT: vextractf128 $1, %ymm1, %xmm3 -; XOP-FALLBACK-NEXT: vextractf128 $1, %ymm0, %xmm4 -; XOP-FALLBACK-NEXT: vpcomgtuq %xmm3, %xmm4, %xmm5 -; XOP-FALLBACK-NEXT: vpcomltuq %xmm3, %xmm4, %xmm6 -; XOP-FALLBACK-NEXT: vblendvpd %xmm6, %xmm4, %xmm3, %xmm6 -; XOP-FALLBACK-NEXT: vpcomltuq %xmm1, %xmm0, %xmm7 -; XOP-FALLBACK-NEXT: vblendvpd %xmm7, %xmm0, %xmm1, %xmm7 -; XOP-FALLBACK-NEXT: vblendvpd %xmm5, %xmm4, %xmm3, %xmm3 -; XOP-FALLBACK-NEXT: vpsubq %xmm6, %xmm3, %xmm3 -; XOP-FALLBACK-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1 -; XOP-FALLBACK-NEXT: vpsubq %xmm7, %xmm1, %xmm1 -; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm3, %xmm6 +; XOP-FALLBACK-NEXT: vextractf128 $1, %ymm1, %xmm2 +; XOP-FALLBACK-NEXT: vextractf128 $1, %ymm0, %xmm3 +; XOP-FALLBACK-NEXT: vpcomgtuq %xmm2, %xmm3, %xmm4 +; XOP-FALLBACK-NEXT: vpcomgtuq %xmm1, %xmm0, %xmm5 +; XOP-FALLBACK-NEXT: vpsubq %xmm1, %xmm0, %xmm6 +; XOP-FALLBACK-NEXT: vpsubq %xmm0, %xmm1, %xmm1 +; XOP-FALLBACK-NEXT: vblendvpd %xmm5, %xmm6, %xmm1, %xmm1 +; XOP-FALLBACK-NEXT: vpsubq %xmm2, %xmm3, %xmm6 +; XOP-FALLBACK-NEXT: vpsubq %xmm3, %xmm2, %xmm2 +; XOP-FALLBACK-NEXT: vblendvpd %xmm4, %xmm6, %xmm2, %xmm2 +; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm2, %xmm6 ; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm7 ; XOP-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1 ; XOP-FALLBACK-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1] -; XOP-FALLBACK-NEXT: vpor %xmm2, %xmm8, %xmm2 -; XOP-FALLBACK-NEXT: vpmuludq %xmm2, %xmm1, %xmm1 -; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm2, %xmm9 +; XOP-FALLBACK-NEXT: vpor %xmm5, %xmm8, %xmm5 +; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm1, %xmm1 +; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm9 ; XOP-FALLBACK-NEXT: vpmuludq %xmm7, %xmm9, %xmm9 ; XOP-FALLBACK-NEXT: vpaddq %xmm1, %xmm9, %xmm1 ; XOP-FALLBACK-NEXT: vpsllq $32, %xmm1, %xmm1 -; XOP-FALLBACK-NEXT: vpmuludq %xmm2, %xmm7, %xmm2 -; XOP-FALLBACK-NEXT: vpsrlq $33, %xmm3, %xmm3 -; XOP-FALLBACK-NEXT: vpor %xmm5, %xmm8, %xmm5 -; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm3, %xmm3 -; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm7 +; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm7, %xmm5 +; XOP-FALLBACK-NEXT: vpsrlq $33, %xmm2, %xmm2 +; XOP-FALLBACK-NEXT: vpor %xmm4, %xmm8, %xmm4 +; XOP-FALLBACK-NEXT: vpmuludq %xmm4, %xmm2, %xmm2 +; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm4, %xmm7 ; XOP-FALLBACK-NEXT: vpmuludq %xmm7, %xmm6, %xmm7 -; XOP-FALLBACK-NEXT: vpaddq %xmm3, %xmm7, %xmm3 -; XOP-FALLBACK-NEXT: vpsllq $32, %xmm3, %xmm3 -; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm6, %xmm5 -; XOP-FALLBACK-NEXT: vpaddq %xmm4, %xmm5, %xmm4 +; XOP-FALLBACK-NEXT: vpaddq %xmm2, %xmm7, %xmm2 +; XOP-FALLBACK-NEXT: vpsllq $32, %xmm2, %xmm2 +; XOP-FALLBACK-NEXT: vpmuludq %xmm4, %xmm6, %xmm4 ; XOP-FALLBACK-NEXT: vpaddq %xmm3, %xmm4, %xmm3 -; XOP-FALLBACK-NEXT: vpaddq %xmm0, %xmm2, %xmm0 +; XOP-FALLBACK-NEXT: vpaddq %xmm2, %xmm3, %xmm2 +; XOP-FALLBACK-NEXT: vpaddq %xmm0, %xmm5, %xmm0 ; XOP-FALLBACK-NEXT: vpaddq %xmm1, %xmm0, %xmm0 -; XOP-FALLBACK-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0 +; XOP-FALLBACK-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0 ; XOP-FALLBACK-NEXT: retq ; ; XOPAVX1-LABEL: vec256_i64_unsigned_reg_reg: ; XOPAVX1: # %bb.0: -; XOPAVX1-NEXT: vpcomgtuq %xmm1, %xmm0, %xmm2 -; XOPAVX1-NEXT: vextractf128 $1, %ymm1, %xmm3 -; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm4 -; XOPAVX1-NEXT: vpcomgtuq %xmm3, %xmm4, %xmm5 -; XOPAVX1-NEXT: vpcomltuq %xmm3, %xmm4, %xmm6 -; XOPAVX1-NEXT: vblendvpd %xmm6, %xmm4, %xmm3, %xmm6 -; XOPAVX1-NEXT: vpcomltuq %xmm1, %xmm0, %xmm7 -; XOPAVX1-NEXT: vblendvpd %xmm7, %xmm0, %xmm1, %xmm7 -; XOPAVX1-NEXT: vblendvpd %xmm5, %xmm4, %xmm3, %xmm3 -; XOPAVX1-NEXT: vpsubq %xmm6, %xmm3, %xmm3 -; XOPAVX1-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1 -; XOPAVX1-NEXT: vpsubq %xmm7, %xmm1, %xmm1 -; XOPAVX1-NEXT: vpsrlq $1, %xmm3, %xmm6 +; XOPAVX1-NEXT: vextractf128 $1, %ymm1, %xmm2 +; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm3 +; XOPAVX1-NEXT: vpcomgtuq %xmm2, %xmm3, %xmm4 +; XOPAVX1-NEXT: vpcomgtuq %xmm1, %xmm0, %xmm5 +; XOPAVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm6 +; XOPAVX1-NEXT: vpsubq %xmm0, %xmm1, %xmm1 +; XOPAVX1-NEXT: vblendvpd %xmm5, %xmm6, %xmm1, %xmm1 +; XOPAVX1-NEXT: vpsubq %xmm2, %xmm3, %xmm6 +; XOPAVX1-NEXT: vpsubq %xmm3, %xmm2, %xmm2 +; XOPAVX1-NEXT: vblendvpd %xmm4, %xmm6, %xmm2, %xmm2 +; XOPAVX1-NEXT: vpsrlq $1, %xmm2, %xmm6 ; XOPAVX1-NEXT: vpsrlq $1, %xmm1, %xmm7 ; XOPAVX1-NEXT: vpsrlq $33, %xmm1, %xmm1 ; XOPAVX1-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1] -; XOPAVX1-NEXT: vpor %xmm2, %xmm8, %xmm2 -; XOPAVX1-NEXT: vpmuludq %xmm2, %xmm1, %xmm1 -; XOPAVX1-NEXT: vpsrlq $32, %xmm2, %xmm9 +; XOPAVX1-NEXT: vpor %xmm5, %xmm8, %xmm5 +; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm1, %xmm1 +; XOPAVX1-NEXT: vpsrlq $32, %xmm5, %xmm9 ; XOPAVX1-NEXT: vpmuludq %xmm7, %xmm9, %xmm9 ; XOPAVX1-NEXT: vpaddq %xmm1, %xmm9, %xmm1 ; XOPAVX1-NEXT: vpsllq $32, %xmm1, %xmm1 -; XOPAVX1-NEXT: vpmuludq %xmm2, %xmm7, %xmm2 -; XOPAVX1-NEXT: vpsrlq $33, %xmm3, %xmm3 -; XOPAVX1-NEXT: vpor %xmm5, %xmm8, %xmm5 -; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm3, %xmm3 -; XOPAVX1-NEXT: vpsrlq $32, %xmm5, %xmm7 +; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm7, %xmm5 +; XOPAVX1-NEXT: vpsrlq $33, %xmm2, %xmm2 +; XOPAVX1-NEXT: vpor %xmm4, %xmm8, %xmm4 +; XOPAVX1-NEXT: vpmuludq %xmm4, %xmm2, %xmm2 +; XOPAVX1-NEXT: vpsrlq $32, %xmm4, %xmm7 ; XOPAVX1-NEXT: vpmuludq %xmm7, %xmm6, %xmm7 -; XOPAVX1-NEXT: vpaddq %xmm3, %xmm7, %xmm3 -; XOPAVX1-NEXT: vpsllq $32, %xmm3, %xmm3 -; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm6, %xmm5 -; XOPAVX1-NEXT: vpaddq %xmm4, %xmm5, %xmm4 +; XOPAVX1-NEXT: vpaddq %xmm2, %xmm7, %xmm2 +; XOPAVX1-NEXT: vpsllq $32, %xmm2, %xmm2 +; XOPAVX1-NEXT: vpmuludq %xmm4, %xmm6, %xmm4 ; XOPAVX1-NEXT: vpaddq %xmm3, %xmm4, %xmm3 -; XOPAVX1-NEXT: vpaddq %xmm0, %xmm2, %xmm0 +; XOPAVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2 +; XOPAVX1-NEXT: vpaddq %xmm0, %xmm5, %xmm0 ; XOPAVX1-NEXT: vpaddq %xmm1, %xmm0, %xmm0 -; XOPAVX1-NEXT: vinsertf128 $1, %xmm3, %ymm0, %ymm0 +; XOPAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0 ; XOPAVX1-NEXT: retq ; ; AVX512F-LABEL: vec256_i64_unsigned_reg_reg: @@ -902,41 +891,41 @@ define <4 x i64> @vec256_i64_unsigned_reg_reg(<4 x i64> %a1, <4 x i64> %a2) noun define <4 x i64> @vec256_i64_signed_mem_reg(ptr %a1_addr, <4 x i64> %a2) nounwind { ; AVX1-FALLBACK-LABEL: vec256_i64_signed_mem_reg: ; AVX1-FALLBACK: # %bb.0: -; AVX1-FALLBACK-NEXT: vmovdqa (%rdi), %xmm1 -; AVX1-FALLBACK-NEXT: vmovdqa 16(%rdi), %xmm2 -; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm3 -; AVX1-FALLBACK-NEXT: vextractf128 $1, %ymm0, %xmm4 -; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm4, %xmm2, %xmm5 -; AVX1-FALLBACK-NEXT: vblendvpd %xmm5, %xmm4, %xmm2, %xmm6 -; AVX1-FALLBACK-NEXT: vblendvpd %xmm3, %xmm0, %xmm1, %xmm7 -; AVX1-FALLBACK-NEXT: vblendvpd %xmm5, %xmm2, %xmm4, %xmm4 -; AVX1-FALLBACK-NEXT: vpsubq %xmm6, %xmm4, %xmm4 -; AVX1-FALLBACK-NEXT: vblendvpd %xmm3, %xmm1, %xmm0, %xmm0 -; AVX1-FALLBACK-NEXT: vpsubq %xmm7, %xmm0, %xmm0 -; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm4, %xmm6 +; AVX1-FALLBACK-NEXT: vextractf128 $1, %ymm0, %xmm1 +; AVX1-FALLBACK-NEXT: vmovdqa (%rdi), %xmm2 +; AVX1-FALLBACK-NEXT: vmovdqa 16(%rdi), %xmm3 +; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm1, %xmm3, %xmm4 +; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm0, %xmm2, %xmm5 +; AVX1-FALLBACK-NEXT: vpsubq %xmm0, %xmm2, %xmm6 +; AVX1-FALLBACK-NEXT: vpsubq %xmm2, %xmm0, %xmm0 +; AVX1-FALLBACK-NEXT: vblendvpd %xmm5, %xmm6, %xmm0, %xmm0 +; AVX1-FALLBACK-NEXT: vpsubq %xmm1, %xmm3, %xmm6 +; AVX1-FALLBACK-NEXT: vpsubq %xmm3, %xmm1, %xmm1 +; AVX1-FALLBACK-NEXT: vblendvpd %xmm4, %xmm6, %xmm1, %xmm1 +; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm6 ; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm0, %xmm7 ; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm0, %xmm0 ; AVX1-FALLBACK-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1] -; AVX1-FALLBACK-NEXT: vpor %xmm3, %xmm8, %xmm3 -; AVX1-FALLBACK-NEXT: vpmuludq %xmm3, %xmm0, %xmm0 -; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm3, %xmm9 +; AVX1-FALLBACK-NEXT: vpor %xmm5, %xmm8, %xmm5 +; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm0, %xmm0 +; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm9 ; AVX1-FALLBACK-NEXT: vpmuludq %xmm7, %xmm9, %xmm9 ; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm9, %xmm0 ; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm0, %xmm0 -; AVX1-FALLBACK-NEXT: vpmuludq %xmm3, %xmm7, %xmm3 -; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm4, %xmm4 -; AVX1-FALLBACK-NEXT: vpor %xmm5, %xmm8, %xmm5 -; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm4, %xmm4 -; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm7 +; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm7, %xmm5 +; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1 +; AVX1-FALLBACK-NEXT: vpor %xmm4, %xmm8, %xmm4 +; AVX1-FALLBACK-NEXT: vpmuludq %xmm4, %xmm1, %xmm1 +; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm4, %xmm7 ; AVX1-FALLBACK-NEXT: vpmuludq %xmm7, %xmm6, %xmm7 -; AVX1-FALLBACK-NEXT: vpaddq %xmm4, %xmm7, %xmm4 -; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm4, %xmm4 -; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm6, %xmm5 -; AVX1-FALLBACK-NEXT: vpaddq %xmm2, %xmm5, %xmm2 -; AVX1-FALLBACK-NEXT: vpaddq %xmm4, %xmm2, %xmm2 +; AVX1-FALLBACK-NEXT: vpaddq %xmm1, %xmm7, %xmm1 +; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm1, %xmm1 +; AVX1-FALLBACK-NEXT: vpmuludq %xmm4, %xmm6, %xmm4 +; AVX1-FALLBACK-NEXT: vpaddq %xmm3, %xmm4, %xmm3 ; AVX1-FALLBACK-NEXT: vpaddq %xmm1, %xmm3, %xmm1 -; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm1, %xmm0 -; AVX1-FALLBACK-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0 +; AVX1-FALLBACK-NEXT: vpaddq %xmm2, %xmm5, %xmm2 +; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm2, %xmm0 +; AVX1-FALLBACK-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0 ; AVX1-FALLBACK-NEXT: retq ; ; AVX2-LABEL: vec256_i64_signed_mem_reg: @@ -945,9 +934,9 @@ define <4 x i64> @vec256_i64_signed_mem_reg(ptr %a1_addr, <4 x i64> %a2) nounwin ; AVX2-NEXT: vpcmpgtq %ymm0, %ymm1, %ymm2 ; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm3 = [1,1,1,1] ; AVX2-NEXT: vpor %ymm3, %ymm2, %ymm3 -; AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm4 -; AVX2-NEXT: vblendvpd %ymm2, %ymm1, %ymm0, %ymm0 -; AVX2-NEXT: vpsubq %ymm4, %ymm0, %ymm0 +; AVX2-NEXT: vpsubq %ymm0, %ymm1, %ymm4 +; AVX2-NEXT: vpsubq %ymm1, %ymm0, %ymm0 +; AVX2-NEXT: vblendvpd %ymm2, %ymm4, %ymm0, %ymm0 ; AVX2-NEXT: vpsrlq $1, %ymm0, %ymm2 ; AVX2-NEXT: vpsrlq $33, %ymm0, %ymm0 ; AVX2-NEXT: vpmuludq %ymm3, %ymm0, %ymm0 @@ -962,84 +951,80 @@ define <4 x i64> @vec256_i64_signed_mem_reg(ptr %a1_addr, <4 x i64> %a2) nounwin ; ; XOP-FALLBACK-LABEL: vec256_i64_signed_mem_reg: ; XOP-FALLBACK: # %bb.0: -; XOP-FALLBACK-NEXT: vmovdqa (%rdi), %xmm1 -; XOP-FALLBACK-NEXT: vmovdqa 16(%rdi), %xmm2 -; XOP-FALLBACK-NEXT: vpcomgtq %xmm0, %xmm1, %xmm3 -; XOP-FALLBACK-NEXT: vextractf128 $1, %ymm0, %xmm4 -; XOP-FALLBACK-NEXT: vpcomgtq %xmm4, %xmm2, %xmm5 -; XOP-FALLBACK-NEXT: vpcomltq %xmm4, %xmm2, %xmm6 -; XOP-FALLBACK-NEXT: vblendvpd %xmm6, %xmm2, %xmm4, %xmm6 -; XOP-FALLBACK-NEXT: vpcomltq %xmm0, %xmm1, %xmm7 -; XOP-FALLBACK-NEXT: vblendvpd %xmm7, %xmm1, %xmm0, %xmm7 -; XOP-FALLBACK-NEXT: vblendvpd %xmm5, %xmm2, %xmm4, %xmm4 -; XOP-FALLBACK-NEXT: vpsubq %xmm6, %xmm4, %xmm4 -; XOP-FALLBACK-NEXT: vblendvpd %xmm3, %xmm1, %xmm0, %xmm0 -; XOP-FALLBACK-NEXT: vpsubq %xmm7, %xmm0, %xmm0 -; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm4, %xmm6 +; XOP-FALLBACK-NEXT: vextractf128 $1, %ymm0, %xmm1 +; XOP-FALLBACK-NEXT: vmovdqa (%rdi), %xmm2 +; XOP-FALLBACK-NEXT: vmovdqa 16(%rdi), %xmm3 +; XOP-FALLBACK-NEXT: vpcomgtq %xmm1, %xmm3, %xmm4 +; XOP-FALLBACK-NEXT: vpcomgtq %xmm0, %xmm2, %xmm5 +; XOP-FALLBACK-NEXT: vpsubq %xmm0, %xmm2, %xmm6 +; XOP-FALLBACK-NEXT: vpsubq %xmm2, %xmm0, %xmm0 +; XOP-FALLBACK-NEXT: vblendvpd %xmm5, %xmm6, %xmm0, %xmm0 +; XOP-FALLBACK-NEXT: vpsubq %xmm1, %xmm3, %xmm6 +; XOP-FALLBACK-NEXT: vpsubq %xmm3, %xmm1, %xmm1 +; XOP-FALLBACK-NEXT: vblendvpd %xmm4, %xmm6, %xmm1, %xmm1 +; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm6 ; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm0, %xmm7 ; XOP-FALLBACK-NEXT: vpsrlq $33, %xmm0, %xmm0 ; XOP-FALLBACK-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1] -; XOP-FALLBACK-NEXT: vpor %xmm3, %xmm8, %xmm3 -; XOP-FALLBACK-NEXT: vpmuludq %xmm3, %xmm0, %xmm0 -; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm3, %xmm9 +; XOP-FALLBACK-NEXT: vpor %xmm5, %xmm8, %xmm5 +; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm0, %xmm0 +; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm9 ; XOP-FALLBACK-NEXT: vpmuludq %xmm7, %xmm9, %xmm9 ; XOP-FALLBACK-NEXT: vpaddq %xmm0, %xmm9, %xmm0 ; XOP-FALLBACK-NEXT: vpsllq $32, %xmm0, %xmm0 -; XOP-FALLBACK-NEXT: vpmuludq %xmm3, %xmm7, %xmm3 -; XOP-FALLBACK-NEXT: vpsrlq $33, %xmm4, %xmm4 -; XOP-FALLBACK-NEXT: vpor %xmm5, %xmm8, %xmm5 -; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm4, %xmm4 -; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm7 +; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm7, %xmm5 +; XOP-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1 +; XOP-FALLBACK-NEXT: vpor %xmm4, %xmm8, %xmm4 +; XOP-FALLBACK-NEXT: vpmuludq %xmm4, %xmm1, %xmm1 +; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm4, %xmm7 ; XOP-FALLBACK-NEXT: vpmuludq %xmm7, %xmm6, %xmm7 -; XOP-FALLBACK-NEXT: vpaddq %xmm4, %xmm7, %xmm4 -; XOP-FALLBACK-NEXT: vpsllq $32, %xmm4, %xmm4 -; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm6, %xmm5 -; XOP-FALLBACK-NEXT: vpaddq %xmm2, %xmm5, %xmm2 -; XOP-FALLBACK-NEXT: vpaddq %xmm4, %xmm2, %xmm2 +; XOP-FALLBACK-NEXT: vpaddq %xmm1, %xmm7, %xmm1 +; XOP-FALLBACK-NEXT: vpsllq $32, %xmm1, %xmm1 +; XOP-FALLBACK-NEXT: vpmuludq %xmm4, %xmm6, %xmm4 +; XOP-FALLBACK-NEXT: vpaddq %xmm3, %xmm4, %xmm3 ; XOP-FALLBACK-NEXT: vpaddq %xmm1, %xmm3, %xmm1 -; XOP-FALLBACK-NEXT: vpaddq %xmm0, %xmm1, %xmm0 -; XOP-FALLBACK-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0 +; XOP-FALLBACK-NEXT: vpaddq %xmm2, %xmm5, %xmm2 +; XOP-FALLBACK-NEXT: vpaddq %xmm0, %xmm2, %xmm0 +; XOP-FALLBACK-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0 ; XOP-FALLBACK-NEXT: retq ; ; XOPAVX1-LABEL: vec256_i64_signed_mem_reg: ; XOPAVX1: # %bb.0: -; XOPAVX1-NEXT: vmovdqa (%rdi), %xmm1 -; XOPAVX1-NEXT: vmovdqa 16(%rdi), %xmm2 -; XOPAVX1-NEXT: vpcomgtq %xmm0, %xmm1, %xmm3 -; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm4 -; XOPAVX1-NEXT: vpcomgtq %xmm4, %xmm2, %xmm5 -; XOPAVX1-NEXT: vpcomltq %xmm4, %xmm2, %xmm6 -; XOPAVX1-NEXT: vblendvpd %xmm6, %xmm2, %xmm4, %xmm6 -; XOPAVX1-NEXT: vpcomltq %xmm0, %xmm1, %xmm7 -; XOPAVX1-NEXT: vblendvpd %xmm7, %xmm1, %xmm0, %xmm7 -; XOPAVX1-NEXT: vblendvpd %xmm5, %xmm2, %xmm4, %xmm4 -; XOPAVX1-NEXT: vpsubq %xmm6, %xmm4, %xmm4 -; XOPAVX1-NEXT: vblendvpd %xmm3, %xmm1, %xmm0, %xmm0 -; XOPAVX1-NEXT: vpsubq %xmm7, %xmm0, %xmm0 -; XOPAVX1-NEXT: vpsrlq $1, %xmm4, %xmm6 +; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm1 +; XOPAVX1-NEXT: vmovdqa (%rdi), %xmm2 +; XOPAVX1-NEXT: vmovdqa 16(%rdi), %xmm3 +; XOPAVX1-NEXT: vpcomgtq %xmm1, %xmm3, %xmm4 +; XOPAVX1-NEXT: vpcomgtq %xmm0, %xmm2, %xmm5 +; XOPAVX1-NEXT: vpsubq %xmm0, %xmm2, %xmm6 +; XOPAVX1-NEXT: vpsubq %xmm2, %xmm0, %xmm0 +; XOPAVX1-NEXT: vblendvpd %xmm5, %xmm6, %xmm0, %xmm0 +; XOPAVX1-NEXT: vpsubq %xmm1, %xmm3, %xmm6 +; XOPAVX1-NEXT: vpsubq %xmm3, %xmm1, %xmm1 +; XOPAVX1-NEXT: vblendvpd %xmm4, %xmm6, %xmm1, %xmm1 +; XOPAVX1-NEXT: vpsrlq $1, %xmm1, %xmm6 ; XOPAVX1-NEXT: vpsrlq $1, %xmm0, %xmm7 ; XOPAVX1-NEXT: vpsrlq $33, %xmm0, %xmm0 ; XOPAVX1-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1] -; XOPAVX1-NEXT: vpor %xmm3, %xmm8, %xmm3 -; XOPAVX1-NEXT: vpmuludq %xmm3, %xmm0, %xmm0 -; XOPAVX1-NEXT: vpsrlq $32, %xmm3, %xmm9 +; XOPAVX1-NEXT: vpor %xmm5, %xmm8, %xmm5 +; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm0, %xmm0 +; XOPAVX1-NEXT: vpsrlq $32, %xmm5, %xmm9 ; XOPAVX1-NEXT: vpmuludq %xmm7, %xmm9, %xmm9 ; XOPAVX1-NEXT: vpaddq %xmm0, %xmm9, %xmm0 ; XOPAVX1-NEXT: vpsllq $32, %xmm0, %xmm0 -; XOPAVX1-NEXT: vpmuludq %xmm3, %xmm7, %xmm3 -; XOPAVX1-NEXT: vpsrlq $33, %xmm4, %xmm4 -; XOPAVX1-NEXT: vpor %xmm5, %xmm8, %xmm5 -; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm4, %xmm4 -; XOPAVX1-NEXT: vpsrlq $32, %xmm5, %xmm7 +; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm7, %xmm5 +; XOPAVX1-NEXT: vpsrlq $33, %xmm1, %xmm1 +; XOPAVX1-NEXT: vpor %xmm4, %xmm8, %xmm4 +; XOPAVX1-NEXT: vpmuludq %xmm4, %xmm1, %xmm1 +; XOPAVX1-NEXT: vpsrlq $32, %xmm4, %xmm7 ; XOPAVX1-NEXT: vpmuludq %xmm7, %xmm6, %xmm7 -; XOPAVX1-NEXT: vpaddq %xmm4, %xmm7, %xmm4 -; XOPAVX1-NEXT: vpsllq $32, %xmm4, %xmm4 -; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm6, %xmm5 -; XOPAVX1-NEXT: vpaddq %xmm2, %xmm5, %xmm2 -; XOPAVX1-NEXT: vpaddq %xmm4, %xmm2, %xmm2 +; XOPAVX1-NEXT: vpaddq %xmm1, %xmm7, %xmm1 +; XOPAVX1-NEXT: vpsllq $32, %xmm1, %xmm1 +; XOPAVX1-NEXT: vpmuludq %xmm4, %xmm6, %xmm4 +; XOPAVX1-NEXT: vpaddq %xmm3, %xmm4, %xmm3 ; XOPAVX1-NEXT: vpaddq %xmm1, %xmm3, %xmm1 -; XOPAVX1-NEXT: vpaddq %xmm0, %xmm1, %xmm0 -; XOPAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0 +; XOPAVX1-NEXT: vpaddq %xmm2, %xmm5, %xmm2 +; XOPAVX1-NEXT: vpaddq %xmm0, %xmm2, %xmm0 +; XOPAVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0 ; XOPAVX1-NEXT: retq ; ; AVX512F-LABEL: vec256_i64_signed_mem_reg: @@ -1117,37 +1102,37 @@ define <4 x i64> @vec256_i64_signed_reg_mem(<4 x i64> %a1, ptr %a2_addr) nounwin ; AVX1-FALLBACK: # %bb.0: ; AVX1-FALLBACK-NEXT: vmovdqa (%rdi), %xmm1 ; AVX1-FALLBACK-NEXT: vmovdqa 16(%rdi), %xmm2 -; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm3 -; AVX1-FALLBACK-NEXT: vextractf128 $1, %ymm0, %xmm4 -; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm2, %xmm4, %xmm5 -; AVX1-FALLBACK-NEXT: vblendvpd %xmm5, %xmm2, %xmm4, %xmm6 -; AVX1-FALLBACK-NEXT: vblendvpd %xmm3, %xmm1, %xmm0, %xmm7 -; AVX1-FALLBACK-NEXT: vblendvpd %xmm5, %xmm4, %xmm2, %xmm2 -; AVX1-FALLBACK-NEXT: vpsubq %xmm6, %xmm2, %xmm2 -; AVX1-FALLBACK-NEXT: vblendvpd %xmm3, %xmm0, %xmm1, %xmm1 -; AVX1-FALLBACK-NEXT: vpsubq %xmm7, %xmm1, %xmm1 +; AVX1-FALLBACK-NEXT: vextractf128 $1, %ymm0, %xmm3 +; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm4 +; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm5 +; AVX1-FALLBACK-NEXT: vpsubq %xmm1, %xmm0, %xmm6 +; AVX1-FALLBACK-NEXT: vpsubq %xmm0, %xmm1, %xmm1 +; AVX1-FALLBACK-NEXT: vblendvpd %xmm5, %xmm6, %xmm1, %xmm1 +; AVX1-FALLBACK-NEXT: vpsubq %xmm2, %xmm3, %xmm6 +; AVX1-FALLBACK-NEXT: vpsubq %xmm3, %xmm2, %xmm2 +; AVX1-FALLBACK-NEXT: vblendvpd %xmm4, %xmm6, %xmm2, %xmm2 ; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm2, %xmm6 ; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm7 ; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1 ; AVX1-FALLBACK-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1] -; AVX1-FALLBACK-NEXT: vpor %xmm3, %xmm8, %xmm3 -; AVX1-FALLBACK-NEXT: vpmuludq %xmm3, %xmm1, %xmm1 -; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm3, %xmm9 +; AVX1-FALLBACK-NEXT: vpor %xmm5, %xmm8, %xmm5 +; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm1, %xmm1 +; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm9 ; AVX1-FALLBACK-NEXT: vpmuludq %xmm7, %xmm9, %xmm9 ; AVX1-FALLBACK-NEXT: vpaddq %xmm1, %xmm9, %xmm1 ; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm1, %xmm1 -; AVX1-FALLBACK-NEXT: vpmuludq %xmm3, %xmm7, %xmm3 +; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm7, %xmm5 ; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm2, %xmm2 -; AVX1-FALLBACK-NEXT: vpor %xmm5, %xmm8, %xmm5 -; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm2, %xmm2 -; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm7 +; AVX1-FALLBACK-NEXT: vpor %xmm4, %xmm8, %xmm4 +; AVX1-FALLBACK-NEXT: vpmuludq %xmm4, %xmm2, %xmm2 +; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm4, %xmm7 ; AVX1-FALLBACK-NEXT: vpmuludq %xmm7, %xmm6, %xmm7 ; AVX1-FALLBACK-NEXT: vpaddq %xmm2, %xmm7, %xmm2 ; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm2, %xmm2 -; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm6, %xmm5 -; AVX1-FALLBACK-NEXT: vpaddq %xmm4, %xmm5, %xmm4 -; AVX1-FALLBACK-NEXT: vpaddq %xmm2, %xmm4, %xmm2 -; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm3, %xmm0 +; AVX1-FALLBACK-NEXT: vpmuludq %xmm4, %xmm6, %xmm4 +; AVX1-FALLBACK-NEXT: vpaddq %xmm3, %xmm4, %xmm3 +; AVX1-FALLBACK-NEXT: vpaddq %xmm2, %xmm3, %xmm2 +; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm5, %xmm0 ; AVX1-FALLBACK-NEXT: vpaddq %xmm1, %xmm0, %xmm0 ; AVX1-FALLBACK-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0 ; AVX1-FALLBACK-NEXT: retq @@ -1158,9 +1143,9 @@ define <4 x i64> @vec256_i64_signed_reg_mem(<4 x i64> %a1, ptr %a2_addr) nounwin ; AVX2-NEXT: vpcmpgtq %ymm1, %ymm0, %ymm2 ; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm3 = [1,1,1,1] ; AVX2-NEXT: vpor %ymm3, %ymm2, %ymm3 -; AVX2-NEXT: vblendvpd %ymm2, %ymm1, %ymm0, %ymm4 -; AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm1 -; AVX2-NEXT: vpsubq %ymm4, %ymm1, %ymm1 +; AVX2-NEXT: vpsubq %ymm1, %ymm0, %ymm4 +; AVX2-NEXT: vpsubq %ymm0, %ymm1, %ymm1 +; AVX2-NEXT: vblendvpd %ymm2, %ymm4, %ymm1, %ymm1 ; AVX2-NEXT: vpsrlq $1, %ymm1, %ymm2 ; AVX2-NEXT: vpsrlq $33, %ymm1, %ymm1 ; AVX2-NEXT: vpmuludq %ymm3, %ymm1, %ymm1 @@ -1177,39 +1162,37 @@ define <4 x i64> @vec256_i64_signed_reg_mem(<4 x i64> %a1, ptr %a2_addr) nounwin ; XOP-FALLBACK: # %bb.0: ; XOP-FALLBACK-NEXT: vmovdqa (%rdi), %xmm1 ; XOP-FALLBACK-NEXT: vmovdqa 16(%rdi), %xmm2 -; XOP-FALLBACK-NEXT: vpcomgtq %xmm1, %xmm0, %xmm3 -; XOP-FALLBACK-NEXT: vextractf128 $1, %ymm0, %xmm4 -; XOP-FALLBACK-NEXT: vpcomgtq %xmm2, %xmm4, %xmm5 -; XOP-FALLBACK-NEXT: vpcomltq %xmm2, %xmm4, %xmm6 -; XOP-FALLBACK-NEXT: vblendvpd %xmm6, %xmm4, %xmm2, %xmm6 -; XOP-FALLBACK-NEXT: vpcomltq %xmm1, %xmm0, %xmm7 -; XOP-FALLBACK-NEXT: vblendvpd %xmm7, %xmm0, %xmm1, %xmm7 -; XOP-FALLBACK-NEXT: vblendvpd %xmm5, %xmm4, %xmm2, %xmm2 -; XOP-FALLBACK-NEXT: vpsubq %xmm6, %xmm2, %xmm2 -; XOP-FALLBACK-NEXT: vblendvpd %xmm3, %xmm0, %xmm1, %xmm1 -; XOP-FALLBACK-NEXT: vpsubq %xmm7, %xmm1, %xmm1 +; XOP-FALLBACK-NEXT: vextractf128 $1, %ymm0, %xmm3 +; XOP-FALLBACK-NEXT: vpcomgtq %xmm2, %xmm3, %xmm4 +; XOP-FALLBACK-NEXT: vpcomgtq %xmm1, %xmm0, %xmm5 +; XOP-FALLBACK-NEXT: vpsubq %xmm1, %xmm0, %xmm6 +; XOP-FALLBACK-NEXT: vpsubq %xmm0, %xmm1, %xmm1 +; XOP-FALLBACK-NEXT: vblendvpd %xmm5, %xmm6, %xmm1, %xmm1 +; XOP-FALLBACK-NEXT: vpsubq %xmm2, %xmm3, %xmm6 +; XOP-FALLBACK-NEXT: vpsubq %xmm3, %xmm2, %xmm2 +; XOP-FALLBACK-NEXT: vblendvpd %xmm4, %xmm6, %xmm2, %xmm2 ; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm2, %xmm6 ; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm7 ; XOP-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1 ; XOP-FALLBACK-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1] -; XOP-FALLBACK-NEXT: vpor %xmm3, %xmm8, %xmm3 -; XOP-FALLBACK-NEXT: vpmuludq %xmm3, %xmm1, %xmm1 -; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm3, %xmm9 +; XOP-FALLBACK-NEXT: vpor %xmm5, %xmm8, %xmm5 +; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm1, %xmm1 +; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm9 ; XOP-FALLBACK-NEXT: vpmuludq %xmm7, %xmm9, %xmm9 ; XOP-FALLBACK-NEXT: vpaddq %xmm1, %xmm9, %xmm1 ; XOP-FALLBACK-NEXT: vpsllq $32, %xmm1, %xmm1 -; XOP-FALLBACK-NEXT: vpmuludq %xmm3, %xmm7, %xmm3 +; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm7, %xmm5 ; XOP-FALLBACK-NEXT: vpsrlq $33, %xmm2, %xmm2 -; XOP-FALLBACK-NEXT: vpor %xmm5, %xmm8, %xmm5 -; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm2, %xmm2 -; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm7 +; XOP-FALLBACK-NEXT: vpor %xmm4, %xmm8, %xmm4 +; XOP-FALLBACK-NEXT: vpmuludq %xmm4, %xmm2, %xmm2 +; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm4, %xmm7 ; XOP-FALLBACK-NEXT: vpmuludq %xmm7, %xmm6, %xmm7 ; XOP-FALLBACK-NEXT: vpaddq %xmm2, %xmm7, %xmm2 ; XOP-FALLBACK-NEXT: vpsllq $32, %xmm2, %xmm2 -; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm6, %xmm5 -; XOP-FALLBACK-NEXT: vpaddq %xmm4, %xmm5, %xmm4 -; XOP-FALLBACK-NEXT: vpaddq %xmm2, %xmm4, %xmm2 -; XOP-FALLBACK-NEXT: vpaddq %xmm0, %xmm3, %xmm0 +; XOP-FALLBACK-NEXT: vpmuludq %xmm4, %xmm6, %xmm4 +; XOP-FALLBACK-NEXT: vpaddq %xmm3, %xmm4, %xmm3 +; XOP-FALLBACK-NEXT: vpaddq %xmm2, %xmm3, %xmm2 +; XOP-FALLBACK-NEXT: vpaddq %xmm0, %xmm5, %xmm0 ; XOP-FALLBACK-NEXT: vpaddq %xmm1, %xmm0, %xmm0 ; XOP-FALLBACK-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0 ; XOP-FALLBACK-NEXT: retq @@ -1218,39 +1201,37 @@ define <4 x i64> @vec256_i64_signed_reg_mem(<4 x i64> %a1, ptr %a2_addr) nounwin ; XOPAVX1: # %bb.0: ; XOPAVX1-NEXT: vmovdqa (%rdi), %xmm1 ; XOPAVX1-NEXT: vmovdqa 16(%rdi), %xmm2 -; XOPAVX1-NEXT: vpcomgtq %xmm1, %xmm0, %xmm3 -; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm4 -; XOPAVX1-NEXT: vpcomgtq %xmm2, %xmm4, %xmm5 -; XOPAVX1-NEXT: vpcomltq %xmm2, %xmm4, %xmm6 -; XOPAVX1-NEXT: vblendvpd %xmm6, %xmm4, %xmm2, %xmm6 -; XOPAVX1-NEXT: vpcomltq %xmm1, %xmm0, %xmm7 -; XOPAVX1-NEXT: vblendvpd %xmm7, %xmm0, %xmm1, %xmm7 -; XOPAVX1-NEXT: vblendvpd %xmm5, %xmm4, %xmm2, %xmm2 -; XOPAVX1-NEXT: vpsubq %xmm6, %xmm2, %xmm2 -; XOPAVX1-NEXT: vblendvpd %xmm3, %xmm0, %xmm1, %xmm1 -; XOPAVX1-NEXT: vpsubq %xmm7, %xmm1, %xmm1 +; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm3 +; XOPAVX1-NEXT: vpcomgtq %xmm2, %xmm3, %xmm4 +; XOPAVX1-NEXT: vpcomgtq %xmm1, %xmm0, %xmm5 +; XOPAVX1-NEXT: vpsubq %xmm1, %xmm0, %xmm6 +; XOPAVX1-NEXT: vpsubq %xmm0, %xmm1, %xmm1 +; XOPAVX1-NEXT: vblendvpd %xmm5, %xmm6, %xmm1, %xmm1 +; XOPAVX1-NEXT: vpsubq %xmm2, %xmm3, %xmm6 +; XOPAVX1-NEXT: vpsubq %xmm3, %xmm2, %xmm2 +; XOPAVX1-NEXT: vblendvpd %xmm4, %xmm6, %xmm2, %xmm2 ; XOPAVX1-NEXT: vpsrlq $1, %xmm2, %xmm6 ; XOPAVX1-NEXT: vpsrlq $1, %xmm1, %xmm7 ; XOPAVX1-NEXT: vpsrlq $33, %xmm1, %xmm1 ; XOPAVX1-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1] -; XOPAVX1-NEXT: vpor %xmm3, %xmm8, %xmm3 -; XOPAVX1-NEXT: vpmuludq %xmm3, %xmm1, %xmm1 -; XOPAVX1-NEXT: vpsrlq $32, %xmm3, %xmm9 +; XOPAVX1-NEXT: vpor %xmm5, %xmm8, %xmm5 +; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm1, %xmm1 +; XOPAVX1-NEXT: vpsrlq $32, %xmm5, %xmm9 ; XOPAVX1-NEXT: vpmuludq %xmm7, %xmm9, %xmm9 ; XOPAVX1-NEXT: vpaddq %xmm1, %xmm9, %xmm1 ; XOPAVX1-NEXT: vpsllq $32, %xmm1, %xmm1 -; XOPAVX1-NEXT: vpmuludq %xmm3, %xmm7, %xmm3 +; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm7, %xmm5 ; XOPAVX1-NEXT: vpsrlq $33, %xmm2, %xmm2 -; XOPAVX1-NEXT: vpor %xmm5, %xmm8, %xmm5 -; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm2, %xmm2 -; XOPAVX1-NEXT: vpsrlq $32, %xmm5, %xmm7 +; XOPAVX1-NEXT: vpor %xmm4, %xmm8, %xmm4 +; XOPAVX1-NEXT: vpmuludq %xmm4, %xmm2, %xmm2 +; XOPAVX1-NEXT: vpsrlq $32, %xmm4, %xmm7 ; XOPAVX1-NEXT: vpmuludq %xmm7, %xmm6, %xmm7 ; XOPAVX1-NEXT: vpaddq %xmm2, %xmm7, %xmm2 ; XOPAVX1-NEXT: vpsllq $32, %xmm2, %xmm2 -; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm6, %xmm5 -; XOPAVX1-NEXT: vpaddq %xmm4, %xmm5, %xmm4 -; XOPAVX1-NEXT: vpaddq %xmm2, %xmm4, %xmm2 -; XOPAVX1-NEXT: vpaddq %xmm0, %xmm3, %xmm0 +; XOPAVX1-NEXT: vpmuludq %xmm4, %xmm6, %xmm4 +; XOPAVX1-NEXT: vpaddq %xmm3, %xmm4, %xmm3 +; XOPAVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2 +; XOPAVX1-NEXT: vpaddq %xmm0, %xmm5, %xmm0 ; XOPAVX1-NEXT: vpaddq %xmm1, %xmm0, %xmm0 ; XOPAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0 ; XOPAVX1-NEXT: retq @@ -1332,36 +1313,36 @@ define <4 x i64> @vec256_i64_signed_mem_mem(ptr %a1_addr, ptr %a2_addr) nounwind ; AVX1-FALLBACK-NEXT: vmovdqa 16(%rsi), %xmm1 ; AVX1-FALLBACK-NEXT: vmovdqa (%rdi), %xmm2 ; AVX1-FALLBACK-NEXT: vmovdqa 16(%rdi), %xmm3 -; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm0, %xmm2, %xmm4 -; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm1, %xmm3, %xmm5 -; AVX1-FALLBACK-NEXT: vblendvpd %xmm5, %xmm1, %xmm3, %xmm6 -; AVX1-FALLBACK-NEXT: vblendvpd %xmm4, %xmm0, %xmm2, %xmm7 -; AVX1-FALLBACK-NEXT: vblendvpd %xmm5, %xmm3, %xmm1, %xmm1 -; AVX1-FALLBACK-NEXT: vpsubq %xmm6, %xmm1, %xmm1 -; AVX1-FALLBACK-NEXT: vblendvpd %xmm4, %xmm2, %xmm0, %xmm0 -; AVX1-FALLBACK-NEXT: vpsubq %xmm7, %xmm0, %xmm0 +; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm1, %xmm3, %xmm4 +; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm0, %xmm2, %xmm5 +; AVX1-FALLBACK-NEXT: vpsubq %xmm0, %xmm2, %xmm6 +; AVX1-FALLBACK-NEXT: vpsubq %xmm2, %xmm0, %xmm0 +; AVX1-FALLBACK-NEXT: vblendvpd %xmm5, %xmm6, %xmm0, %xmm0 +; AVX1-FALLBACK-NEXT: vpsubq %xmm1, %xmm3, %xmm6 +; AVX1-FALLBACK-NEXT: vpsubq %xmm3, %xmm1, %xmm1 +; AVX1-FALLBACK-NEXT: vblendvpd %xmm4, %xmm6, %xmm1, %xmm1 ; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm6 ; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm0, %xmm7 ; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm0, %xmm0 ; AVX1-FALLBACK-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1] -; AVX1-FALLBACK-NEXT: vpor %xmm4, %xmm8, %xmm4 -; AVX1-FALLBACK-NEXT: vpmuludq %xmm4, %xmm0, %xmm0 -; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm4, %xmm9 +; AVX1-FALLBACK-NEXT: vpor %xmm5, %xmm8, %xmm5 +; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm0, %xmm0 +; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm9 ; AVX1-FALLBACK-NEXT: vpmuludq %xmm7, %xmm9, %xmm9 ; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm9, %xmm0 ; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm0, %xmm0 -; AVX1-FALLBACK-NEXT: vpmuludq %xmm4, %xmm7, %xmm4 +; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm7, %xmm5 ; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1 -; AVX1-FALLBACK-NEXT: vpor %xmm5, %xmm8, %xmm5 -; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm1, %xmm1 -; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm7 +; AVX1-FALLBACK-NEXT: vpor %xmm4, %xmm8, %xmm4 +; AVX1-FALLBACK-NEXT: vpmuludq %xmm4, %xmm1, %xmm1 +; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm4, %xmm7 ; AVX1-FALLBACK-NEXT: vpmuludq %xmm7, %xmm6, %xmm7 ; AVX1-FALLBACK-NEXT: vpaddq %xmm1, %xmm7, %xmm1 ; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm1, %xmm1 -; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm6, %xmm5 -; AVX1-FALLBACK-NEXT: vpaddq %xmm3, %xmm5, %xmm3 +; AVX1-FALLBACK-NEXT: vpmuludq %xmm4, %xmm6, %xmm4 +; AVX1-FALLBACK-NEXT: vpaddq %xmm3, %xmm4, %xmm3 ; AVX1-FALLBACK-NEXT: vpaddq %xmm1, %xmm3, %xmm1 -; AVX1-FALLBACK-NEXT: vpaddq %xmm2, %xmm4, %xmm2 +; AVX1-FALLBACK-NEXT: vpaddq %xmm2, %xmm5, %xmm2 ; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm2, %xmm0 ; AVX1-FALLBACK-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0 ; AVX1-FALLBACK-NEXT: retq @@ -1373,9 +1354,9 @@ define <4 x i64> @vec256_i64_signed_mem_mem(ptr %a1_addr, ptr %a2_addr) nounwind ; AVX2-NEXT: vpcmpgtq %ymm1, %ymm0, %ymm2 ; AVX2-NEXT: vpbroadcastq {{.*#+}} ymm3 = [1,1,1,1] ; AVX2-NEXT: vpor %ymm3, %ymm2, %ymm3 -; AVX2-NEXT: vblendvpd %ymm2, %ymm1, %ymm0, %ymm4 -; AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm1 -; AVX2-NEXT: vpsubq %ymm4, %ymm1, %ymm1 +; AVX2-NEXT: vpsubq %ymm1, %ymm0, %ymm4 +; AVX2-NEXT: vpsubq %ymm0, %ymm1, %ymm1 +; AVX2-NEXT: vblendvpd %ymm2, %ymm4, %ymm1, %ymm1 ; AVX2-NEXT: vpsrlq $1, %ymm1, %ymm2 ; AVX2-NEXT: vpsrlq $33, %ymm1, %ymm1 ; AVX2-NEXT: vpmuludq %ymm3, %ymm1, %ymm1 @@ -1390,86 +1371,82 @@ define <4 x i64> @vec256_i64_signed_mem_mem(ptr %a1_addr, ptr %a2_addr) nounwind ; ; XOP-FALLBACK-LABEL: vec256_i64_signed_mem_mem: ; XOP-FALLBACK: # %bb.0: -; XOP-FALLBACK-NEXT: vmovdqa (%rsi), %xmm1 -; XOP-FALLBACK-NEXT: vmovdqa 16(%rsi), %xmm2 -; XOP-FALLBACK-NEXT: vmovdqa (%rdi), %xmm0 +; XOP-FALLBACK-NEXT: vmovdqa (%rsi), %xmm0 +; XOP-FALLBACK-NEXT: vmovdqa 16(%rsi), %xmm1 +; XOP-FALLBACK-NEXT: vmovdqa (%rdi), %xmm2 ; XOP-FALLBACK-NEXT: vmovdqa 16(%rdi), %xmm3 -; XOP-FALLBACK-NEXT: vpcomgtq %xmm1, %xmm0, %xmm4 -; XOP-FALLBACK-NEXT: vpcomgtq %xmm2, %xmm3, %xmm5 -; XOP-FALLBACK-NEXT: vpcomltq %xmm2, %xmm3, %xmm6 -; XOP-FALLBACK-NEXT: vblendvpd %xmm6, %xmm3, %xmm2, %xmm6 -; XOP-FALLBACK-NEXT: vpcomltq %xmm1, %xmm0, %xmm7 -; XOP-FALLBACK-NEXT: vblendvpd %xmm7, %xmm0, %xmm1, %xmm7 -; XOP-FALLBACK-NEXT: vblendvpd %xmm5, %xmm3, %xmm2, %xmm2 -; XOP-FALLBACK-NEXT: vpsubq %xmm6, %xmm2, %xmm2 -; XOP-FALLBACK-NEXT: vblendvpd %xmm4, %xmm0, %xmm1, %xmm1 -; XOP-FALLBACK-NEXT: vpsubq %xmm7, %xmm1, %xmm1 -; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm2, %xmm6 -; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm7 -; XOP-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1 +; XOP-FALLBACK-NEXT: vpcomgtq %xmm1, %xmm3, %xmm4 +; XOP-FALLBACK-NEXT: vpcomgtq %xmm0, %xmm2, %xmm5 +; XOP-FALLBACK-NEXT: vpsubq %xmm0, %xmm2, %xmm6 +; XOP-FALLBACK-NEXT: vpsubq %xmm2, %xmm0, %xmm0 +; XOP-FALLBACK-NEXT: vblendvpd %xmm5, %xmm6, %xmm0, %xmm0 +; XOP-FALLBACK-NEXT: vpsubq %xmm1, %xmm3, %xmm6 +; XOP-FALLBACK-NEXT: vpsubq %xmm3, %xmm1, %xmm1 +; XOP-FALLBACK-NEXT: vblendvpd %xmm4, %xmm6, %xmm1, %xmm1 +; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm6 +; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm0, %xmm7 +; XOP-FALLBACK-NEXT: vpsrlq $33, %xmm0, %xmm0 ; XOP-FALLBACK-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1] +; XOP-FALLBACK-NEXT: vpor %xmm5, %xmm8, %xmm5 +; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm0, %xmm0 +; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm9 +; XOP-FALLBACK-NEXT: vpmuludq %xmm7, %xmm9, %xmm9 +; XOP-FALLBACK-NEXT: vpaddq %xmm0, %xmm9, %xmm0 +; XOP-FALLBACK-NEXT: vpsllq $32, %xmm0, %xmm0 +; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm7, %xmm5 +; XOP-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1 ; XOP-FALLBACK-NEXT: vpor %xmm4, %xmm8, %xmm4 ; XOP-FALLBACK-NEXT: vpmuludq %xmm4, %xmm1, %xmm1 -; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm4, %xmm9 -; XOP-FALLBACK-NEXT: vpmuludq %xmm7, %xmm9, %xmm9 -; XOP-FALLBACK-NEXT: vpaddq %xmm1, %xmm9, %xmm1 -; XOP-FALLBACK-NEXT: vpsllq $32, %xmm1, %xmm1 -; XOP-FALLBACK-NEXT: vpmuludq %xmm4, %xmm7, %xmm4 -; XOP-FALLBACK-NEXT: vpsrlq $33, %xmm2, %xmm2 -; XOP-FALLBACK-NEXT: vpor %xmm5, %xmm8, %xmm5 -; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm2, %xmm2 -; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm7 +; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm4, %xmm7 ; XOP-FALLBACK-NEXT: vpmuludq %xmm7, %xmm6, %xmm7 -; XOP-FALLBACK-NEXT: vpaddq %xmm2, %xmm7, %xmm2 -; XOP-FALLBACK-NEXT: vpsllq $32, %xmm2, %xmm2 -; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm6, %xmm5 -; XOP-FALLBACK-NEXT: vpaddq %xmm3, %xmm5, %xmm3 -; XOP-FALLBACK-NEXT: vpaddq %xmm2, %xmm3, %xmm2 -; XOP-FALLBACK-NEXT: vpaddq %xmm0, %xmm4, %xmm0 -; XOP-FALLBACK-NEXT: vpaddq %xmm1, %xmm0, %xmm0 -; XOP-FALLBACK-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0 +; XOP-FALLBACK-NEXT: vpaddq %xmm1, %xmm7, %xmm1 +; XOP-FALLBACK-NEXT: vpsllq $32, %xmm1, %xmm1 +; XOP-FALLBACK-NEXT: vpmuludq %xmm4, %xmm6, %xmm4 +; XOP-FALLBACK-NEXT: vpaddq %xmm3, %xmm4, %xmm3 +; XOP-FALLBACK-NEXT: vpaddq %xmm1, %xmm3, %xmm1 +; XOP-FALLBACK-NEXT: vpaddq %xmm2, %xmm5, %xmm2 +; XOP-FALLBACK-NEXT: vpaddq %xmm0, %xmm2, %xmm0 +; XOP-FALLBACK-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0 ; XOP-FALLBACK-NEXT: retq ; ; XOPAVX1-LABEL: vec256_i64_signed_mem_mem: ; XOPAVX1: # %bb.0: -; XOPAVX1-NEXT: vmovdqa (%rsi), %xmm1 -; XOPAVX1-NEXT: vmovdqa 16(%rsi), %xmm2 -; XOPAVX1-NEXT: vmovdqa (%rdi), %xmm0 +; XOPAVX1-NEXT: vmovdqa (%rsi), %xmm0 +; XOPAVX1-NEXT: vmovdqa 16(%rsi), %xmm1 +; XOPAVX1-NEXT: vmovdqa (%rdi), %xmm2 ; XOPAVX1-NEXT: vmovdqa 16(%rdi), %xmm3 -; XOPAVX1-NEXT: vpcomgtq %xmm1, %xmm0, %xmm4 -; XOPAVX1-NEXT: vpcomgtq %xmm2, %xmm3, %xmm5 -; XOPAVX1-NEXT: vpcomltq %xmm2, %xmm3, %xmm6 -; XOPAVX1-NEXT: vblendvpd %xmm6, %xmm3, %xmm2, %xmm6 -; XOPAVX1-NEXT: vpcomltq %xmm1, %xmm0, %xmm7 -; XOPAVX1-NEXT: vblendvpd %xmm7, %xmm0, %xmm1, %xmm7 -; XOPAVX1-NEXT: vblendvpd %xmm5, %xmm3, %xmm2, %xmm2 -; XOPAVX1-NEXT: vpsubq %xmm6, %xmm2, %xmm2 -; XOPAVX1-NEXT: vblendvpd %xmm4, %xmm0, %xmm1, %xmm1 -; XOPAVX1-NEXT: vpsubq %xmm7, %xmm1, %xmm1 -; XOPAVX1-NEXT: vpsrlq $1, %xmm2, %xmm6 -; XOPAVX1-NEXT: vpsrlq $1, %xmm1, %xmm7 -; XOPAVX1-NEXT: vpsrlq $33, %xmm1, %xmm1 +; XOPAVX1-NEXT: vpcomgtq %xmm1, %xmm3, %xmm4 +; XOPAVX1-NEXT: vpcomgtq %xmm0, %xmm2, %xmm5 +; XOPAVX1-NEXT: vpsubq %xmm0, %xmm2, %xmm6 +; XOPAVX1-NEXT: vpsubq %xmm2, %xmm0, %xmm0 +; XOPAVX1-NEXT: vblendvpd %xmm5, %xmm6, %xmm0, %xmm0 +; XOPAVX1-NEXT: vpsubq %xmm1, %xmm3, %xmm6 +; XOPAVX1-NEXT: vpsubq %xmm3, %xmm1, %xmm1 +; XOPAVX1-NEXT: vblendvpd %xmm4, %xmm6, %xmm1, %xmm1 +; XOPAVX1-NEXT: vpsrlq $1, %xmm1, %xmm6 +; XOPAVX1-NEXT: vpsrlq $1, %xmm0, %xmm7 +; XOPAVX1-NEXT: vpsrlq $33, %xmm0, %xmm0 ; XOPAVX1-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1] +; XOPAVX1-NEXT: vpor %xmm5, %xmm8, %xmm5 +; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm0, %xmm0 +; XOPAVX1-NEXT: vpsrlq $32, %xmm5, %xmm9 +; XOPAVX1-NEXT: vpmuludq %xmm7, %xmm9, %xmm9 +; XOPAVX1-NEXT: vpaddq %xmm0, %xmm9, %xmm0 +; XOPAVX1-NEXT: vpsllq $32, %xmm0, %xmm0 +; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm7, %xmm5 +; XOPAVX1-NEXT: vpsrlq $33, %xmm1, %xmm1 ; XOPAVX1-NEXT: vpor %xmm4, %xmm8, %xmm4 ; XOPAVX1-NEXT: vpmuludq %xmm4, %xmm1, %xmm1 -; XOPAVX1-NEXT: vpsrlq $32, %xmm4, %xmm9 -; XOPAVX1-NEXT: vpmuludq %xmm7, %xmm9, %xmm9 -; XOPAVX1-NEXT: vpaddq %xmm1, %xmm9, %xmm1 -; XOPAVX1-NEXT: vpsllq $32, %xmm1, %xmm1 -; XOPAVX1-NEXT: vpmuludq %xmm4, %xmm7, %xmm4 -; XOPAVX1-NEXT: vpsrlq $33, %xmm2, %xmm2 -; XOPAVX1-NEXT: vpor %xmm5, %xmm8, %xmm5 -; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm2, %xmm2 -; XOPAVX1-NEXT: vpsrlq $32, %xmm5, %xmm7 +; XOPAVX1-NEXT: vpsrlq $32, %xmm4, %xmm7 ; XOPAVX1-NEXT: vpmuludq %xmm7, %xmm6, %xmm7 -; XOPAVX1-NEXT: vpaddq %xmm2, %xmm7, %xmm2 -; XOPAVX1-NEXT: vpsllq $32, %xmm2, %xmm2 -; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm6, %xmm5 -; XOPAVX1-NEXT: vpaddq %xmm3, %xmm5, %xmm3 -; XOPAVX1-NEXT: vpaddq %xmm2, %xmm3, %xmm2 -; XOPAVX1-NEXT: vpaddq %xmm0, %xmm4, %xmm0 -; XOPAVX1-NEXT: vpaddq %xmm1, %xmm0, %xmm0 -; XOPAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0 +; XOPAVX1-NEXT: vpaddq %xmm1, %xmm7, %xmm1 +; XOPAVX1-NEXT: vpsllq $32, %xmm1, %xmm1 +; XOPAVX1-NEXT: vpmuludq %xmm4, %xmm6, %xmm4 +; XOPAVX1-NEXT: vpaddq %xmm3, %xmm4, %xmm3 +; XOPAVX1-NEXT: vpaddq %xmm1, %xmm3, %xmm1 +; XOPAVX1-NEXT: vpaddq %xmm2, %xmm5, %xmm2 +; XOPAVX1-NEXT: vpaddq %xmm0, %xmm2, %xmm0 +; XOPAVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0 ; XOPAVX1-NEXT: retq ; ; AVX512F-LABEL: vec256_i64_signed_mem_mem: -- 2.7.4