; SSE2-NEXT: pxor %xmm0, %xmm4
; SSE2-NEXT: movdqa %xmm4, %xmm2
; SSE2-NEXT: pcmpgtd %xmm5, %xmm2
-; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]
-; SSE2-NEXT: movdqa %xmm4, %xmm6
-; SSE2-NEXT: pcmpeqd %xmm5, %xmm6
-; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm6[1,1,3,3]
-; SSE2-NEXT: pand %xmm6, %xmm3
-; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
+; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm2[0,0,2,2]
+; SSE2-NEXT: movdqa %xmm4, %xmm3
+; SSE2-NEXT: pcmpeqd %xmm5, %xmm3
+; SSE2-NEXT: pshufd {{.*#+}} xmm7 = xmm3[1,1,3,3]
+; SSE2-NEXT: pand %xmm7, %xmm6
+; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm2[1,1,3,3]
+; SSE2-NEXT: por %xmm6, %xmm3
+; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [1,1]
; SSE2-NEXT: por %xmm3, %xmm2
-; SSE2-NEXT: movdqa {{.*#+}} xmm3 = [1,1]
-; SSE2-NEXT: por %xmm2, %xmm3
; SSE2-NEXT: pcmpgtd %xmm4, %xmm5
; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm5[0,0,2,2]
-; SSE2-NEXT: pand %xmm6, %xmm4
+; SSE2-NEXT: pand %xmm7, %xmm4
; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm5[1,1,3,3]
; SSE2-NEXT: por %xmm4, %xmm5
; SSE2-NEXT: movdqa %xmm0, %xmm4
; SSE2-NEXT: pandn %xmm1, %xmm5
; SSE2-NEXT: por %xmm4, %xmm5
; SSE2-NEXT: movdqa %xmm0, %xmm4
-; SSE2-NEXT: pand %xmm2, %xmm4
-; SSE2-NEXT: pandn %xmm1, %xmm2
-; SSE2-NEXT: por %xmm4, %xmm2
-; SSE2-NEXT: psubq %xmm5, %xmm2
-; SSE2-NEXT: psrlq $1, %xmm2
+; SSE2-NEXT: pand %xmm3, %xmm4
+; SSE2-NEXT: pandn %xmm1, %xmm3
+; SSE2-NEXT: por %xmm4, %xmm3
+; SSE2-NEXT: psubq %xmm5, %xmm3
; SSE2-NEXT: movdqa %xmm3, %xmm4
-; SSE2-NEXT: psrlq $32, %xmm4
-; SSE2-NEXT: pmuludq %xmm2, %xmm4
+; SSE2-NEXT: psrlq $1, %xmm4
+; SSE2-NEXT: psrlq $33, %xmm3
+; SSE2-NEXT: pmuludq %xmm2, %xmm3
; SSE2-NEXT: movdqa %xmm2, %xmm1
; SSE2-NEXT: psrlq $32, %xmm1
-; SSE2-NEXT: pmuludq %xmm3, %xmm1
-; SSE2-NEXT: paddq %xmm4, %xmm1
+; SSE2-NEXT: pmuludq %xmm4, %xmm1
+; SSE2-NEXT: paddq %xmm3, %xmm1
; SSE2-NEXT: psllq $32, %xmm1
-; SSE2-NEXT: pmuludq %xmm3, %xmm2
+; SSE2-NEXT: pmuludq %xmm2, %xmm4
; SSE2-NEXT: paddq %xmm0, %xmm1
-; SSE2-NEXT: paddq %xmm2, %xmm1
+; SSE2-NEXT: paddq %xmm4, %xmm1
; SSE2-NEXT: movdqa %xmm1, %xmm0
; SSE2-NEXT: retq
;
; SSE41-NEXT: pcmpeqd %xmm5, %xmm6
; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm6[1,1,3,3]
; SSE41-NEXT: pand %xmm4, %xmm7
-; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm3[1,1,3,3]
-; SSE41-NEXT: por %xmm7, %xmm4
-; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [1,1]
-; SSE41-NEXT: por %xmm4, %xmm3
+; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]
+; SSE41-NEXT: por %xmm7, %xmm3
+; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [1,1]
+; SSE41-NEXT: por %xmm3, %xmm4
; SSE41-NEXT: pcmpgtd %xmm0, %xmm5
; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2]
; SSE41-NEXT: pand %xmm6, %xmm0
; SSE41-NEXT: por %xmm5, %xmm0
; SSE41-NEXT: movdqa %xmm1, %xmm5
; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm5
-; SSE41-NEXT: movdqa %xmm4, %xmm0
+; SSE41-NEXT: movdqa %xmm3, %xmm0
; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1
; SSE41-NEXT: psubq %xmm5, %xmm1
-; SSE41-NEXT: psrlq $1, %xmm1
-; SSE41-NEXT: movdqa %xmm3, %xmm0
+; SSE41-NEXT: movdqa %xmm1, %xmm3
+; SSE41-NEXT: psrlq $1, %xmm3
+; SSE41-NEXT: psrlq $33, %xmm1
+; SSE41-NEXT: pmuludq %xmm4, %xmm1
+; SSE41-NEXT: movdqa %xmm4, %xmm0
; SSE41-NEXT: psrlq $32, %xmm0
-; SSE41-NEXT: pmuludq %xmm1, %xmm0
-; SSE41-NEXT: movdqa %xmm1, %xmm4
-; SSE41-NEXT: psrlq $32, %xmm4
+; SSE41-NEXT: pmuludq %xmm3, %xmm0
+; SSE41-NEXT: paddq %xmm1, %xmm0
+; SSE41-NEXT: psllq $32, %xmm0
; SSE41-NEXT: pmuludq %xmm3, %xmm4
-; SSE41-NEXT: paddq %xmm0, %xmm4
-; SSE41-NEXT: psllq $32, %xmm4
-; SSE41-NEXT: pmuludq %xmm1, %xmm3
-; SSE41-NEXT: paddq %xmm2, %xmm4
-; SSE41-NEXT: paddq %xmm4, %xmm3
-; SSE41-NEXT: movdqa %xmm3, %xmm0
+; SSE41-NEXT: paddq %xmm2, %xmm0
+; SSE41-NEXT: paddq %xmm4, %xmm0
; SSE41-NEXT: retq
;
; AVX1-FALLBACK-LABEL: vec128_i64_signed_reg_reg:
; AVX1-FALLBACK-NEXT: vblendvpd %xmm4, %xmm0, %xmm1, %xmm4
; AVX1-FALLBACK-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1
; AVX1-FALLBACK-NEXT: vpsubq %xmm4, %xmm1, %xmm1
-; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm1
-; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm3, %xmm2
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm2, %xmm1, %xmm2
-; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm1, %xmm4
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm3, %xmm4, %xmm4
-; AVX1-FALLBACK-NEXT: vpaddq %xmm4, %xmm2, %xmm2
-; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm2, %xmm2
+; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm2
+; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1
; AVX1-FALLBACK-NEXT: vpmuludq %xmm3, %xmm1, %xmm1
-; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm2, %xmm0
+; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm3, %xmm4
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm4, %xmm2, %xmm4
+; AVX1-FALLBACK-NEXT: vpaddq %xmm1, %xmm4, %xmm1
+; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm1, %xmm1
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm3, %xmm2, %xmm2
; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm1, %xmm0
+; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm2, %xmm0
; AVX1-FALLBACK-NEXT: retq
;
; AVX2-FALLBACK-LABEL: vec128_i64_signed_reg_reg:
; AVX2-FALLBACK-NEXT: vblendvpd %xmm4, %xmm0, %xmm1, %xmm4
; AVX2-FALLBACK-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1
; AVX2-FALLBACK-NEXT: vpsubq %xmm4, %xmm1, %xmm1
-; AVX2-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm1
-; AVX2-FALLBACK-NEXT: vpsrlq $32, %xmm3, %xmm2
-; AVX2-FALLBACK-NEXT: vpmuludq %xmm2, %xmm1, %xmm2
-; AVX2-FALLBACK-NEXT: vpsrlq $32, %xmm1, %xmm4
-; AVX2-FALLBACK-NEXT: vpmuludq %xmm3, %xmm4, %xmm4
-; AVX2-FALLBACK-NEXT: vpaddq %xmm4, %xmm2, %xmm2
-; AVX2-FALLBACK-NEXT: vpsllq $32, %xmm2, %xmm2
+; AVX2-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm2
+; AVX2-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1
; AVX2-FALLBACK-NEXT: vpmuludq %xmm3, %xmm1, %xmm1
-; AVX2-FALLBACK-NEXT: vpaddq %xmm0, %xmm2, %xmm0
+; AVX2-FALLBACK-NEXT: vpsrlq $32, %xmm3, %xmm4
+; AVX2-FALLBACK-NEXT: vpmuludq %xmm4, %xmm2, %xmm4
+; AVX2-FALLBACK-NEXT: vpaddq %xmm1, %xmm4, %xmm1
+; AVX2-FALLBACK-NEXT: vpsllq $32, %xmm1, %xmm1
+; AVX2-FALLBACK-NEXT: vpmuludq %xmm3, %xmm2, %xmm2
; AVX2-FALLBACK-NEXT: vpaddq %xmm0, %xmm1, %xmm0
+; AVX2-FALLBACK-NEXT: vpaddq %xmm0, %xmm2, %xmm0
; AVX2-FALLBACK-NEXT: retq
;
; XOP-LABEL: vec128_i64_signed_reg_reg:
; XOP-NEXT: vblendvpd %xmm4, %xmm0, %xmm1, %xmm4
; XOP-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1
; XOP-NEXT: vpsubq %xmm4, %xmm1, %xmm1
-; XOP-NEXT: vpsrlq $1, %xmm1, %xmm1
-; XOP-NEXT: vpsrlq $32, %xmm3, %xmm2
-; XOP-NEXT: vpmuludq %xmm2, %xmm1, %xmm2
-; XOP-NEXT: vpsrlq $32, %xmm1, %xmm4
-; XOP-NEXT: vpmuludq %xmm3, %xmm4, %xmm4
-; XOP-NEXT: vpaddq %xmm4, %xmm2, %xmm2
-; XOP-NEXT: vpsllq $32, %xmm2, %xmm2
+; XOP-NEXT: vpsrlq $1, %xmm1, %xmm2
+; XOP-NEXT: vpsrlq $33, %xmm1, %xmm1
; XOP-NEXT: vpmuludq %xmm3, %xmm1, %xmm1
-; XOP-NEXT: vpaddq %xmm0, %xmm2, %xmm0
+; XOP-NEXT: vpsrlq $32, %xmm3, %xmm4
+; XOP-NEXT: vpmuludq %xmm4, %xmm2, %xmm4
+; XOP-NEXT: vpaddq %xmm1, %xmm4, %xmm1
+; XOP-NEXT: vpsllq $32, %xmm1, %xmm1
+; XOP-NEXT: vpmuludq %xmm3, %xmm2, %xmm2
; XOP-NEXT: vpaddq %xmm0, %xmm1, %xmm0
+; XOP-NEXT: vpaddq %xmm0, %xmm2, %xmm0
; XOP-NEXT: retq
;
; AVX512F-LABEL: vec128_i64_signed_reg_reg:
; AVX512F-NEXT: vpminsq %zmm1, %zmm0, %zmm2
; AVX512F-NEXT: vpmaxsq %zmm1, %zmm0, %zmm1
; AVX512F-NEXT: vpsubq %xmm2, %xmm1, %xmm1
-; AVX512F-NEXT: vpsrlq $1, %xmm1, %xmm1
-; AVX512F-NEXT: vpsrlq $32, %xmm1, %xmm2
-; AVX512F-NEXT: vpmuludq %xmm3, %xmm2, %xmm2
-; AVX512F-NEXT: vpsrlq $32, %xmm3, %xmm4
-; AVX512F-NEXT: vpmuludq %xmm4, %xmm1, %xmm4
-; AVX512F-NEXT: vpaddq %xmm2, %xmm4, %xmm2
-; AVX512F-NEXT: vpsllq $32, %xmm2, %xmm2
+; AVX512F-NEXT: vpsrlq $1, %xmm1, %xmm2
+; AVX512F-NEXT: vpsrlq $33, %xmm1, %xmm1
; AVX512F-NEXT: vpmuludq %xmm3, %xmm1, %xmm1
-; AVX512F-NEXT: vpaddq %xmm0, %xmm2, %xmm0
+; AVX512F-NEXT: vpsrlq $32, %xmm3, %xmm4
+; AVX512F-NEXT: vpmuludq %xmm4, %xmm2, %xmm4
+; AVX512F-NEXT: vpaddq %xmm1, %xmm4, %xmm1
+; AVX512F-NEXT: vpsllq $32, %xmm1, %xmm1
+; AVX512F-NEXT: vpmuludq %xmm3, %xmm2, %xmm2
; AVX512F-NEXT: vpaddq %xmm0, %xmm1, %xmm0
+; AVX512F-NEXT: vpaddq %xmm0, %xmm2, %xmm0
; AVX512F-NEXT: vzeroupper
; AVX512F-NEXT: retq
;
; AVX512VL-NEXT: vpminsq %xmm1, %xmm0, %xmm2
; AVX512VL-NEXT: vpmaxsq %xmm1, %xmm0, %xmm1
; AVX512VL-NEXT: vpsubq %xmm2, %xmm1, %xmm1
-; AVX512VL-NEXT: vpsrlq $1, %xmm1, %xmm1
-; AVX512VL-NEXT: vpsrlq $32, %xmm3, %xmm2
-; AVX512VL-NEXT: vpmuludq %xmm2, %xmm1, %xmm2
-; AVX512VL-NEXT: vpsrlq $32, %xmm1, %xmm4
-; AVX512VL-NEXT: vpmuludq %xmm3, %xmm4, %xmm4
-; AVX512VL-NEXT: vpaddq %xmm4, %xmm2, %xmm2
-; AVX512VL-NEXT: vpsllq $32, %xmm2, %xmm2
+; AVX512VL-NEXT: vpsrlq $1, %xmm1, %xmm2
+; AVX512VL-NEXT: vpsrlq $33, %xmm1, %xmm1
; AVX512VL-NEXT: vpmuludq %xmm3, %xmm1, %xmm1
-; AVX512VL-NEXT: vpaddq %xmm0, %xmm2, %xmm0
+; AVX512VL-NEXT: vpsrlq $32, %xmm3, %xmm4
+; AVX512VL-NEXT: vpmuludq %xmm4, %xmm2, %xmm4
+; AVX512VL-NEXT: vpaddq %xmm1, %xmm4, %xmm1
+; AVX512VL-NEXT: vpsllq $32, %xmm1, %xmm1
+; AVX512VL-NEXT: vpmuludq %xmm3, %xmm2, %xmm2
; AVX512VL-NEXT: vpaddq %xmm0, %xmm1, %xmm0
+; AVX512VL-NEXT: vpaddq %xmm0, %xmm2, %xmm0
; AVX512VL-NEXT: retq
;
; AVX512BW-FALLBACK-LABEL: vec128_i64_signed_reg_reg:
; AVX512BW-FALLBACK-NEXT: vpminsq %zmm1, %zmm0, %zmm2
; AVX512BW-FALLBACK-NEXT: vpmaxsq %zmm1, %zmm0, %zmm1
; AVX512BW-FALLBACK-NEXT: vpsubq %xmm2, %xmm1, %xmm1
-; AVX512BW-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm1
-; AVX512BW-FALLBACK-NEXT: vpsrlq $32, %xmm1, %xmm2
-; AVX512BW-FALLBACK-NEXT: vpmuludq %xmm3, %xmm2, %xmm2
-; AVX512BW-FALLBACK-NEXT: vpsrlq $32, %xmm3, %xmm4
-; AVX512BW-FALLBACK-NEXT: vpmuludq %xmm4, %xmm1, %xmm4
-; AVX512BW-FALLBACK-NEXT: vpaddq %xmm2, %xmm4, %xmm2
-; AVX512BW-FALLBACK-NEXT: vpsllq $32, %xmm2, %xmm2
+; AVX512BW-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm2
+; AVX512BW-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1
; AVX512BW-FALLBACK-NEXT: vpmuludq %xmm3, %xmm1, %xmm1
-; AVX512BW-FALLBACK-NEXT: vpaddq %xmm0, %xmm2, %xmm0
+; AVX512BW-FALLBACK-NEXT: vpsrlq $32, %xmm3, %xmm4
+; AVX512BW-FALLBACK-NEXT: vpmuludq %xmm4, %xmm2, %xmm4
+; AVX512BW-FALLBACK-NEXT: vpaddq %xmm1, %xmm4, %xmm1
+; AVX512BW-FALLBACK-NEXT: vpsllq $32, %xmm1, %xmm1
+; AVX512BW-FALLBACK-NEXT: vpmuludq %xmm3, %xmm2, %xmm2
; AVX512BW-FALLBACK-NEXT: vpaddq %xmm0, %xmm1, %xmm0
+; AVX512BW-FALLBACK-NEXT: vpaddq %xmm0, %xmm2, %xmm0
; AVX512BW-FALLBACK-NEXT: vzeroupper
; AVX512BW-FALLBACK-NEXT: retq
%t3 = icmp sgt <2 x i64> %a1, %a2 ; signed
; SSE2-NEXT: pxor %xmm0, %xmm4
; SSE2-NEXT: movdqa %xmm4, %xmm2
; SSE2-NEXT: pcmpgtd %xmm5, %xmm2
-; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]
-; SSE2-NEXT: movdqa %xmm4, %xmm6
-; SSE2-NEXT: pcmpeqd %xmm5, %xmm6
-; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm6[1,1,3,3]
-; SSE2-NEXT: pand %xmm6, %xmm3
-; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
+; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm2[0,0,2,2]
+; SSE2-NEXT: movdqa %xmm4, %xmm3
+; SSE2-NEXT: pcmpeqd %xmm5, %xmm3
+; SSE2-NEXT: pshufd {{.*#+}} xmm7 = xmm3[1,1,3,3]
+; SSE2-NEXT: pand %xmm7, %xmm6
+; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm2[1,1,3,3]
+; SSE2-NEXT: por %xmm6, %xmm3
+; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [1,1]
; SSE2-NEXT: por %xmm3, %xmm2
-; SSE2-NEXT: movdqa {{.*#+}} xmm3 = [1,1]
-; SSE2-NEXT: por %xmm2, %xmm3
; SSE2-NEXT: pcmpgtd %xmm4, %xmm5
; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm5[0,0,2,2]
-; SSE2-NEXT: pand %xmm6, %xmm4
+; SSE2-NEXT: pand %xmm7, %xmm4
; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm5[1,1,3,3]
; SSE2-NEXT: por %xmm4, %xmm5
; SSE2-NEXT: movdqa %xmm0, %xmm4
; SSE2-NEXT: pandn %xmm1, %xmm5
; SSE2-NEXT: por %xmm4, %xmm5
; SSE2-NEXT: movdqa %xmm0, %xmm4
-; SSE2-NEXT: pand %xmm2, %xmm4
-; SSE2-NEXT: pandn %xmm1, %xmm2
-; SSE2-NEXT: por %xmm4, %xmm2
-; SSE2-NEXT: psubq %xmm5, %xmm2
-; SSE2-NEXT: psrlq $1, %xmm2
+; SSE2-NEXT: pand %xmm3, %xmm4
+; SSE2-NEXT: pandn %xmm1, %xmm3
+; SSE2-NEXT: por %xmm4, %xmm3
+; SSE2-NEXT: psubq %xmm5, %xmm3
; SSE2-NEXT: movdqa %xmm3, %xmm4
-; SSE2-NEXT: psrlq $32, %xmm4
-; SSE2-NEXT: pmuludq %xmm2, %xmm4
+; SSE2-NEXT: psrlq $1, %xmm4
+; SSE2-NEXT: psrlq $33, %xmm3
+; SSE2-NEXT: pmuludq %xmm2, %xmm3
; SSE2-NEXT: movdqa %xmm2, %xmm1
; SSE2-NEXT: psrlq $32, %xmm1
-; SSE2-NEXT: pmuludq %xmm3, %xmm1
-; SSE2-NEXT: paddq %xmm4, %xmm1
+; SSE2-NEXT: pmuludq %xmm4, %xmm1
+; SSE2-NEXT: paddq %xmm3, %xmm1
; SSE2-NEXT: psllq $32, %xmm1
-; SSE2-NEXT: pmuludq %xmm3, %xmm2
+; SSE2-NEXT: pmuludq %xmm2, %xmm4
; SSE2-NEXT: paddq %xmm0, %xmm1
-; SSE2-NEXT: paddq %xmm2, %xmm1
+; SSE2-NEXT: paddq %xmm4, %xmm1
; SSE2-NEXT: movdqa %xmm1, %xmm0
; SSE2-NEXT: retq
;
; SSE41-NEXT: pcmpeqd %xmm5, %xmm6
; SSE41-NEXT: pshufd {{.*#+}} xmm7 = xmm6[1,1,3,3]
; SSE41-NEXT: pand %xmm4, %xmm7
-; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm3[1,1,3,3]
-; SSE41-NEXT: por %xmm7, %xmm4
-; SSE41-NEXT: movdqa {{.*#+}} xmm3 = [1,1]
-; SSE41-NEXT: por %xmm4, %xmm3
+; SSE41-NEXT: pshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]
+; SSE41-NEXT: por %xmm7, %xmm3
+; SSE41-NEXT: movdqa {{.*#+}} xmm4 = [1,1]
+; SSE41-NEXT: por %xmm3, %xmm4
; SSE41-NEXT: pcmpgtd %xmm0, %xmm5
; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2]
; SSE41-NEXT: pand %xmm6, %xmm0
; SSE41-NEXT: por %xmm5, %xmm0
; SSE41-NEXT: movdqa %xmm1, %xmm5
; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm5
-; SSE41-NEXT: movdqa %xmm4, %xmm0
+; SSE41-NEXT: movdqa %xmm3, %xmm0
; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm1
; SSE41-NEXT: psubq %xmm5, %xmm1
-; SSE41-NEXT: psrlq $1, %xmm1
-; SSE41-NEXT: movdqa %xmm3, %xmm0
+; SSE41-NEXT: movdqa %xmm1, %xmm3
+; SSE41-NEXT: psrlq $1, %xmm3
+; SSE41-NEXT: psrlq $33, %xmm1
+; SSE41-NEXT: pmuludq %xmm4, %xmm1
+; SSE41-NEXT: movdqa %xmm4, %xmm0
; SSE41-NEXT: psrlq $32, %xmm0
-; SSE41-NEXT: pmuludq %xmm1, %xmm0
-; SSE41-NEXT: movdqa %xmm1, %xmm4
-; SSE41-NEXT: psrlq $32, %xmm4
+; SSE41-NEXT: pmuludq %xmm3, %xmm0
+; SSE41-NEXT: paddq %xmm1, %xmm0
+; SSE41-NEXT: psllq $32, %xmm0
; SSE41-NEXT: pmuludq %xmm3, %xmm4
-; SSE41-NEXT: paddq %xmm0, %xmm4
-; SSE41-NEXT: psllq $32, %xmm4
-; SSE41-NEXT: pmuludq %xmm1, %xmm3
-; SSE41-NEXT: paddq %xmm2, %xmm4
-; SSE41-NEXT: paddq %xmm4, %xmm3
-; SSE41-NEXT: movdqa %xmm3, %xmm0
+; SSE41-NEXT: paddq %xmm2, %xmm0
+; SSE41-NEXT: paddq %xmm4, %xmm0
; SSE41-NEXT: retq
;
; AVX1-FALLBACK-LABEL: vec128_i64_unsigned_reg_reg:
; AVX1-FALLBACK-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm2
; AVX1-FALLBACK-NEXT: vblendvpd %xmm4, %xmm0, %xmm1, %xmm1
; AVX1-FALLBACK-NEXT: vpsubq %xmm2, %xmm1, %xmm1
-; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm1
-; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm2
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm2, %xmm1, %xmm2
-; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm1, %xmm3
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm3, %xmm3
-; AVX1-FALLBACK-NEXT: vpaddq %xmm3, %xmm2, %xmm2
-; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm2, %xmm2
+; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm2
+; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1
; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm1, %xmm1
-; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm2, %xmm0
+; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm3
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm3, %xmm2, %xmm3
+; AVX1-FALLBACK-NEXT: vpaddq %xmm1, %xmm3, %xmm1
+; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm1, %xmm1
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm2, %xmm2
; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm1, %xmm0
+; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm2, %xmm0
; AVX1-FALLBACK-NEXT: retq
;
; AVX2-FALLBACK-LABEL: vec128_i64_unsigned_reg_reg:
; AVX2-FALLBACK-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm2
; AVX2-FALLBACK-NEXT: vblendvpd %xmm4, %xmm0, %xmm1, %xmm1
; AVX2-FALLBACK-NEXT: vpsubq %xmm2, %xmm1, %xmm1
-; AVX2-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm1
-; AVX2-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm2
-; AVX2-FALLBACK-NEXT: vpmuludq %xmm2, %xmm1, %xmm2
-; AVX2-FALLBACK-NEXT: vpsrlq $32, %xmm1, %xmm3
-; AVX2-FALLBACK-NEXT: vpmuludq %xmm5, %xmm3, %xmm3
-; AVX2-FALLBACK-NEXT: vpaddq %xmm3, %xmm2, %xmm2
-; AVX2-FALLBACK-NEXT: vpsllq $32, %xmm2, %xmm2
+; AVX2-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm2
+; AVX2-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1
; AVX2-FALLBACK-NEXT: vpmuludq %xmm5, %xmm1, %xmm1
-; AVX2-FALLBACK-NEXT: vpaddq %xmm0, %xmm2, %xmm0
+; AVX2-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm3
+; AVX2-FALLBACK-NEXT: vpmuludq %xmm3, %xmm2, %xmm3
+; AVX2-FALLBACK-NEXT: vpaddq %xmm1, %xmm3, %xmm1
+; AVX2-FALLBACK-NEXT: vpsllq $32, %xmm1, %xmm1
+; AVX2-FALLBACK-NEXT: vpmuludq %xmm5, %xmm2, %xmm2
; AVX2-FALLBACK-NEXT: vpaddq %xmm0, %xmm1, %xmm0
+; AVX2-FALLBACK-NEXT: vpaddq %xmm0, %xmm2, %xmm0
; AVX2-FALLBACK-NEXT: retq
;
; XOP-LABEL: vec128_i64_unsigned_reg_reg:
; XOP-NEXT: vblendvpd %xmm4, %xmm0, %xmm1, %xmm4
; XOP-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1
; XOP-NEXT: vpsubq %xmm4, %xmm1, %xmm1
-; XOP-NEXT: vpsrlq $1, %xmm1, %xmm1
-; XOP-NEXT: vpsrlq $32, %xmm3, %xmm2
-; XOP-NEXT: vpmuludq %xmm2, %xmm1, %xmm2
-; XOP-NEXT: vpsrlq $32, %xmm1, %xmm4
-; XOP-NEXT: vpmuludq %xmm3, %xmm4, %xmm4
-; XOP-NEXT: vpaddq %xmm4, %xmm2, %xmm2
-; XOP-NEXT: vpsllq $32, %xmm2, %xmm2
+; XOP-NEXT: vpsrlq $1, %xmm1, %xmm2
+; XOP-NEXT: vpsrlq $33, %xmm1, %xmm1
; XOP-NEXT: vpmuludq %xmm3, %xmm1, %xmm1
-; XOP-NEXT: vpaddq %xmm0, %xmm2, %xmm0
+; XOP-NEXT: vpsrlq $32, %xmm3, %xmm4
+; XOP-NEXT: vpmuludq %xmm4, %xmm2, %xmm4
+; XOP-NEXT: vpaddq %xmm1, %xmm4, %xmm1
+; XOP-NEXT: vpsllq $32, %xmm1, %xmm1
+; XOP-NEXT: vpmuludq %xmm3, %xmm2, %xmm2
; XOP-NEXT: vpaddq %xmm0, %xmm1, %xmm0
+; XOP-NEXT: vpaddq %xmm0, %xmm2, %xmm0
; XOP-NEXT: retq
;
; AVX512F-LABEL: vec128_i64_unsigned_reg_reg:
; AVX512F-NEXT: vpminuq %zmm1, %zmm0, %zmm2
; AVX512F-NEXT: vpmaxuq %zmm1, %zmm0, %zmm1
; AVX512F-NEXT: vpsubq %xmm2, %xmm1, %xmm1
-; AVX512F-NEXT: vpsrlq $1, %xmm1, %xmm1
-; AVX512F-NEXT: vpsrlq $32, %xmm1, %xmm2
-; AVX512F-NEXT: vpmuludq %xmm3, %xmm2, %xmm2
-; AVX512F-NEXT: vpsrlq $32, %xmm3, %xmm4
-; AVX512F-NEXT: vpmuludq %xmm4, %xmm1, %xmm4
-; AVX512F-NEXT: vpaddq %xmm2, %xmm4, %xmm2
-; AVX512F-NEXT: vpsllq $32, %xmm2, %xmm2
+; AVX512F-NEXT: vpsrlq $1, %xmm1, %xmm2
+; AVX512F-NEXT: vpsrlq $33, %xmm1, %xmm1
; AVX512F-NEXT: vpmuludq %xmm3, %xmm1, %xmm1
-; AVX512F-NEXT: vpaddq %xmm0, %xmm2, %xmm0
+; AVX512F-NEXT: vpsrlq $32, %xmm3, %xmm4
+; AVX512F-NEXT: vpmuludq %xmm4, %xmm2, %xmm4
+; AVX512F-NEXT: vpaddq %xmm1, %xmm4, %xmm1
+; AVX512F-NEXT: vpsllq $32, %xmm1, %xmm1
+; AVX512F-NEXT: vpmuludq %xmm3, %xmm2, %xmm2
; AVX512F-NEXT: vpaddq %xmm0, %xmm1, %xmm0
+; AVX512F-NEXT: vpaddq %xmm0, %xmm2, %xmm0
; AVX512F-NEXT: vzeroupper
; AVX512F-NEXT: retq
;
; AVX512VL-NEXT: vpminuq %xmm1, %xmm0, %xmm2
; AVX512VL-NEXT: vpmaxuq %xmm1, %xmm0, %xmm1
; AVX512VL-NEXT: vpsubq %xmm2, %xmm1, %xmm1
-; AVX512VL-NEXT: vpsrlq $1, %xmm1, %xmm1
-; AVX512VL-NEXT: vpsrlq $32, %xmm3, %xmm2
-; AVX512VL-NEXT: vpmuludq %xmm2, %xmm1, %xmm2
-; AVX512VL-NEXT: vpsrlq $32, %xmm1, %xmm4
-; AVX512VL-NEXT: vpmuludq %xmm3, %xmm4, %xmm4
-; AVX512VL-NEXT: vpaddq %xmm4, %xmm2, %xmm2
-; AVX512VL-NEXT: vpsllq $32, %xmm2, %xmm2
+; AVX512VL-NEXT: vpsrlq $1, %xmm1, %xmm2
+; AVX512VL-NEXT: vpsrlq $33, %xmm1, %xmm1
; AVX512VL-NEXT: vpmuludq %xmm3, %xmm1, %xmm1
-; AVX512VL-NEXT: vpaddq %xmm0, %xmm2, %xmm0
+; AVX512VL-NEXT: vpsrlq $32, %xmm3, %xmm4
+; AVX512VL-NEXT: vpmuludq %xmm4, %xmm2, %xmm4
+; AVX512VL-NEXT: vpaddq %xmm1, %xmm4, %xmm1
+; AVX512VL-NEXT: vpsllq $32, %xmm1, %xmm1
+; AVX512VL-NEXT: vpmuludq %xmm3, %xmm2, %xmm2
; AVX512VL-NEXT: vpaddq %xmm0, %xmm1, %xmm0
+; AVX512VL-NEXT: vpaddq %xmm0, %xmm2, %xmm0
; AVX512VL-NEXT: retq
;
; AVX512BW-FALLBACK-LABEL: vec128_i64_unsigned_reg_reg:
; AVX512BW-FALLBACK-NEXT: vpminuq %zmm1, %zmm0, %zmm2
; AVX512BW-FALLBACK-NEXT: vpmaxuq %zmm1, %zmm0, %zmm1
; AVX512BW-FALLBACK-NEXT: vpsubq %xmm2, %xmm1, %xmm1
-; AVX512BW-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm1
-; AVX512BW-FALLBACK-NEXT: vpsrlq $32, %xmm1, %xmm2
-; AVX512BW-FALLBACK-NEXT: vpmuludq %xmm3, %xmm2, %xmm2
-; AVX512BW-FALLBACK-NEXT: vpsrlq $32, %xmm3, %xmm4
-; AVX512BW-FALLBACK-NEXT: vpmuludq %xmm4, %xmm1, %xmm4
-; AVX512BW-FALLBACK-NEXT: vpaddq %xmm2, %xmm4, %xmm2
-; AVX512BW-FALLBACK-NEXT: vpsllq $32, %xmm2, %xmm2
+; AVX512BW-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm2
+; AVX512BW-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1
; AVX512BW-FALLBACK-NEXT: vpmuludq %xmm3, %xmm1, %xmm1
-; AVX512BW-FALLBACK-NEXT: vpaddq %xmm0, %xmm2, %xmm0
+; AVX512BW-FALLBACK-NEXT: vpsrlq $32, %xmm3, %xmm4
+; AVX512BW-FALLBACK-NEXT: vpmuludq %xmm4, %xmm2, %xmm4
+; AVX512BW-FALLBACK-NEXT: vpaddq %xmm1, %xmm4, %xmm1
+; AVX512BW-FALLBACK-NEXT: vpsllq $32, %xmm1, %xmm1
+; AVX512BW-FALLBACK-NEXT: vpmuludq %xmm3, %xmm2, %xmm2
; AVX512BW-FALLBACK-NEXT: vpaddq %xmm0, %xmm1, %xmm0
+; AVX512BW-FALLBACK-NEXT: vpaddq %xmm0, %xmm2, %xmm0
; AVX512BW-FALLBACK-NEXT: vzeroupper
; AVX512BW-FALLBACK-NEXT: retq
%t3 = icmp ugt <2 x i64> %a1, %a2
; SSE2-NEXT: pxor %xmm1, %xmm4
; SSE2-NEXT: movdqa %xmm4, %xmm2
; SSE2-NEXT: pcmpgtd %xmm5, %xmm2
-; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]
-; SSE2-NEXT: movdqa %xmm4, %xmm6
-; SSE2-NEXT: pcmpeqd %xmm5, %xmm6
-; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm6[1,1,3,3]
-; SSE2-NEXT: pand %xmm6, %xmm3
-; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
+; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm2[0,0,2,2]
+; SSE2-NEXT: movdqa %xmm4, %xmm3
+; SSE2-NEXT: pcmpeqd %xmm5, %xmm3
+; SSE2-NEXT: pshufd {{.*#+}} xmm7 = xmm3[1,1,3,3]
+; SSE2-NEXT: pand %xmm7, %xmm6
+; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm2[1,1,3,3]
+; SSE2-NEXT: por %xmm6, %xmm3
+; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [1,1]
; SSE2-NEXT: por %xmm3, %xmm2
-; SSE2-NEXT: movdqa {{.*#+}} xmm3 = [1,1]
-; SSE2-NEXT: por %xmm2, %xmm3
; SSE2-NEXT: pcmpgtd %xmm4, %xmm5
; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm5[0,0,2,2]
-; SSE2-NEXT: pand %xmm6, %xmm4
+; SSE2-NEXT: pand %xmm7, %xmm4
; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm5[1,1,3,3]
; SSE2-NEXT: por %xmm4, %xmm5
; SSE2-NEXT: movdqa %xmm1, %xmm4
; SSE2-NEXT: pandn %xmm0, %xmm5
; SSE2-NEXT: por %xmm4, %xmm5
; SSE2-NEXT: movdqa %xmm1, %xmm4
-; SSE2-NEXT: pand %xmm2, %xmm4
-; SSE2-NEXT: pandn %xmm0, %xmm2
-; SSE2-NEXT: por %xmm4, %xmm2
-; SSE2-NEXT: psubq %xmm5, %xmm2
-; SSE2-NEXT: psrlq $1, %xmm2
+; SSE2-NEXT: pand %xmm3, %xmm4
+; SSE2-NEXT: pandn %xmm0, %xmm3
+; SSE2-NEXT: por %xmm4, %xmm3
+; SSE2-NEXT: psubq %xmm5, %xmm3
; SSE2-NEXT: movdqa %xmm3, %xmm4
-; SSE2-NEXT: psrlq $32, %xmm4
-; SSE2-NEXT: pmuludq %xmm2, %xmm4
+; SSE2-NEXT: psrlq $1, %xmm4
+; SSE2-NEXT: psrlq $33, %xmm3
+; SSE2-NEXT: pmuludq %xmm2, %xmm3
; SSE2-NEXT: movdqa %xmm2, %xmm0
; SSE2-NEXT: psrlq $32, %xmm0
-; SSE2-NEXT: pmuludq %xmm3, %xmm0
-; SSE2-NEXT: paddq %xmm4, %xmm0
+; SSE2-NEXT: pmuludq %xmm4, %xmm0
+; SSE2-NEXT: paddq %xmm3, %xmm0
; SSE2-NEXT: psllq $32, %xmm0
-; SSE2-NEXT: pmuludq %xmm3, %xmm2
+; SSE2-NEXT: pmuludq %xmm2, %xmm4
; SSE2-NEXT: paddq %xmm1, %xmm0
-; SSE2-NEXT: paddq %xmm2, %xmm0
+; SSE2-NEXT: paddq %xmm4, %xmm0
; SSE2-NEXT: retq
;
; SSE41-LABEL: vec128_i64_signed_mem_reg:
; SSE41-NEXT: movdqa %xmm2, %xmm0
; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm1
; SSE41-NEXT: psubq %xmm5, %xmm1
-; SSE41-NEXT: psrlq $1, %xmm1
+; SSE41-NEXT: movdqa %xmm1, %xmm0
+; SSE41-NEXT: psrlq $1, %xmm0
+; SSE41-NEXT: psrlq $33, %xmm1
+; SSE41-NEXT: pmuludq %xmm4, %xmm1
; SSE41-NEXT: movdqa %xmm4, %xmm2
; SSE41-NEXT: psrlq $32, %xmm2
-; SSE41-NEXT: pmuludq %xmm1, %xmm2
-; SSE41-NEXT: movdqa %xmm1, %xmm0
-; SSE41-NEXT: psrlq $32, %xmm0
+; SSE41-NEXT: pmuludq %xmm0, %xmm2
+; SSE41-NEXT: paddq %xmm1, %xmm2
+; SSE41-NEXT: psllq $32, %xmm2
; SSE41-NEXT: pmuludq %xmm4, %xmm0
+; SSE41-NEXT: paddq %xmm3, %xmm2
; SSE41-NEXT: paddq %xmm2, %xmm0
-; SSE41-NEXT: psllq $32, %xmm0
-; SSE41-NEXT: pmuludq %xmm4, %xmm1
-; SSE41-NEXT: paddq %xmm3, %xmm0
-; SSE41-NEXT: paddq %xmm1, %xmm0
; SSE41-NEXT: retq
;
; AVX1-FALLBACK-LABEL: vec128_i64_signed_mem_reg:
; AVX1-FALLBACK-NEXT: vblendvpd %xmm4, %xmm1, %xmm0, %xmm4
; AVX1-FALLBACK-NEXT: vblendvpd %xmm2, %xmm1, %xmm0, %xmm0
; AVX1-FALLBACK-NEXT: vpsubq %xmm4, %xmm0, %xmm0
-; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm0, %xmm0
-; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm3, %xmm2
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm2, %xmm0, %xmm2
-; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm0, %xmm4
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm3, %xmm4, %xmm4
-; AVX1-FALLBACK-NEXT: vpaddq %xmm4, %xmm2, %xmm2
-; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm2, %xmm2
+; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm0, %xmm2
+; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm0, %xmm0
; AVX1-FALLBACK-NEXT: vpmuludq %xmm3, %xmm0, %xmm0
-; AVX1-FALLBACK-NEXT: vpaddq %xmm1, %xmm2, %xmm1
+; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm3, %xmm4
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm4, %xmm2, %xmm4
+; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm4, %xmm0
+; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm0, %xmm0
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm3, %xmm2, %xmm2
; AVX1-FALLBACK-NEXT: vpaddq %xmm1, %xmm0, %xmm0
+; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm2, %xmm0
; AVX1-FALLBACK-NEXT: retq
;
; AVX2-FALLBACK-LABEL: vec128_i64_signed_mem_reg:
; AVX2-FALLBACK-NEXT: vblendvpd %xmm4, %xmm1, %xmm0, %xmm4
; AVX2-FALLBACK-NEXT: vblendvpd %xmm2, %xmm1, %xmm0, %xmm0
; AVX2-FALLBACK-NEXT: vpsubq %xmm4, %xmm0, %xmm0
-; AVX2-FALLBACK-NEXT: vpsrlq $1, %xmm0, %xmm0
-; AVX2-FALLBACK-NEXT: vpsrlq $32, %xmm3, %xmm2
-; AVX2-FALLBACK-NEXT: vpmuludq %xmm2, %xmm0, %xmm2
-; AVX2-FALLBACK-NEXT: vpsrlq $32, %xmm0, %xmm4
-; AVX2-FALLBACK-NEXT: vpmuludq %xmm3, %xmm4, %xmm4
-; AVX2-FALLBACK-NEXT: vpaddq %xmm4, %xmm2, %xmm2
-; AVX2-FALLBACK-NEXT: vpsllq $32, %xmm2, %xmm2
+; AVX2-FALLBACK-NEXT: vpsrlq $1, %xmm0, %xmm2
+; AVX2-FALLBACK-NEXT: vpsrlq $33, %xmm0, %xmm0
; AVX2-FALLBACK-NEXT: vpmuludq %xmm3, %xmm0, %xmm0
-; AVX2-FALLBACK-NEXT: vpaddq %xmm1, %xmm2, %xmm1
+; AVX2-FALLBACK-NEXT: vpsrlq $32, %xmm3, %xmm4
+; AVX2-FALLBACK-NEXT: vpmuludq %xmm4, %xmm2, %xmm4
+; AVX2-FALLBACK-NEXT: vpaddq %xmm0, %xmm4, %xmm0
+; AVX2-FALLBACK-NEXT: vpsllq $32, %xmm0, %xmm0
+; AVX2-FALLBACK-NEXT: vpmuludq %xmm3, %xmm2, %xmm2
; AVX2-FALLBACK-NEXT: vpaddq %xmm1, %xmm0, %xmm0
+; AVX2-FALLBACK-NEXT: vpaddq %xmm0, %xmm2, %xmm0
; AVX2-FALLBACK-NEXT: retq
;
; XOP-LABEL: vec128_i64_signed_mem_reg:
; XOP-NEXT: vblendvpd %xmm4, %xmm1, %xmm0, %xmm4
; XOP-NEXT: vblendvpd %xmm2, %xmm1, %xmm0, %xmm0
; XOP-NEXT: vpsubq %xmm4, %xmm0, %xmm0
-; XOP-NEXT: vpsrlq $1, %xmm0, %xmm0
-; XOP-NEXT: vpsrlq $32, %xmm3, %xmm2
-; XOP-NEXT: vpmuludq %xmm2, %xmm0, %xmm2
-; XOP-NEXT: vpsrlq $32, %xmm0, %xmm4
-; XOP-NEXT: vpmuludq %xmm3, %xmm4, %xmm4
-; XOP-NEXT: vpaddq %xmm4, %xmm2, %xmm2
-; XOP-NEXT: vpsllq $32, %xmm2, %xmm2
+; XOP-NEXT: vpsrlq $1, %xmm0, %xmm2
+; XOP-NEXT: vpsrlq $33, %xmm0, %xmm0
; XOP-NEXT: vpmuludq %xmm3, %xmm0, %xmm0
-; XOP-NEXT: vpaddq %xmm1, %xmm2, %xmm1
+; XOP-NEXT: vpsrlq $32, %xmm3, %xmm4
+; XOP-NEXT: vpmuludq %xmm4, %xmm2, %xmm4
+; XOP-NEXT: vpaddq %xmm0, %xmm4, %xmm0
+; XOP-NEXT: vpsllq $32, %xmm0, %xmm0
+; XOP-NEXT: vpmuludq %xmm3, %xmm2, %xmm2
; XOP-NEXT: vpaddq %xmm1, %xmm0, %xmm0
+; XOP-NEXT: vpaddq %xmm0, %xmm2, %xmm0
; XOP-NEXT: retq
;
; AVX512F-LABEL: vec128_i64_signed_mem_reg:
; AVX512F-NEXT: vpminsq %zmm0, %zmm1, %zmm2
; AVX512F-NEXT: vpmaxsq %zmm0, %zmm1, %zmm0
; AVX512F-NEXT: vpsubq %xmm2, %xmm0, %xmm0
-; AVX512F-NEXT: vpsrlq $1, %xmm0, %xmm0
-; AVX512F-NEXT: vpsrlq $32, %xmm0, %xmm2
-; AVX512F-NEXT: vpmuludq %xmm3, %xmm2, %xmm2
-; AVX512F-NEXT: vpsrlq $32, %xmm3, %xmm4
-; AVX512F-NEXT: vpmuludq %xmm4, %xmm0, %xmm4
-; AVX512F-NEXT: vpaddq %xmm2, %xmm4, %xmm2
-; AVX512F-NEXT: vpsllq $32, %xmm2, %xmm2
+; AVX512F-NEXT: vpsrlq $1, %xmm0, %xmm2
+; AVX512F-NEXT: vpsrlq $33, %xmm0, %xmm0
; AVX512F-NEXT: vpmuludq %xmm3, %xmm0, %xmm0
-; AVX512F-NEXT: vpaddq %xmm1, %xmm2, %xmm1
+; AVX512F-NEXT: vpsrlq $32, %xmm3, %xmm4
+; AVX512F-NEXT: vpmuludq %xmm4, %xmm2, %xmm4
+; AVX512F-NEXT: vpaddq %xmm0, %xmm4, %xmm0
+; AVX512F-NEXT: vpsllq $32, %xmm0, %xmm0
+; AVX512F-NEXT: vpmuludq %xmm3, %xmm2, %xmm2
; AVX512F-NEXT: vpaddq %xmm1, %xmm0, %xmm0
+; AVX512F-NEXT: vpaddq %xmm0, %xmm2, %xmm0
; AVX512F-NEXT: vzeroupper
; AVX512F-NEXT: retq
;
; AVX512VL-NEXT: vpminsq %xmm0, %xmm1, %xmm2
; AVX512VL-NEXT: vpmaxsq %xmm0, %xmm1, %xmm0
; AVX512VL-NEXT: vpsubq %xmm2, %xmm0, %xmm0
-; AVX512VL-NEXT: vpsrlq $1, %xmm0, %xmm0
-; AVX512VL-NEXT: vpsrlq $32, %xmm3, %xmm2
-; AVX512VL-NEXT: vpmuludq %xmm2, %xmm0, %xmm2
-; AVX512VL-NEXT: vpsrlq $32, %xmm0, %xmm4
-; AVX512VL-NEXT: vpmuludq %xmm3, %xmm4, %xmm4
-; AVX512VL-NEXT: vpaddq %xmm4, %xmm2, %xmm2
-; AVX512VL-NEXT: vpsllq $32, %xmm2, %xmm2
+; AVX512VL-NEXT: vpsrlq $1, %xmm0, %xmm2
+; AVX512VL-NEXT: vpsrlq $33, %xmm0, %xmm0
; AVX512VL-NEXT: vpmuludq %xmm3, %xmm0, %xmm0
-; AVX512VL-NEXT: vpaddq %xmm1, %xmm2, %xmm1
+; AVX512VL-NEXT: vpsrlq $32, %xmm3, %xmm4
+; AVX512VL-NEXT: vpmuludq %xmm4, %xmm2, %xmm4
+; AVX512VL-NEXT: vpaddq %xmm0, %xmm4, %xmm0
+; AVX512VL-NEXT: vpsllq $32, %xmm0, %xmm0
+; AVX512VL-NEXT: vpmuludq %xmm3, %xmm2, %xmm2
; AVX512VL-NEXT: vpaddq %xmm1, %xmm0, %xmm0
+; AVX512VL-NEXT: vpaddq %xmm0, %xmm2, %xmm0
; AVX512VL-NEXT: retq
;
; AVX512BW-FALLBACK-LABEL: vec128_i64_signed_mem_reg:
; AVX512BW-FALLBACK-NEXT: vpminsq %zmm0, %zmm1, %zmm2
; AVX512BW-FALLBACK-NEXT: vpmaxsq %zmm0, %zmm1, %zmm0
; AVX512BW-FALLBACK-NEXT: vpsubq %xmm2, %xmm0, %xmm0
-; AVX512BW-FALLBACK-NEXT: vpsrlq $1, %xmm0, %xmm0
-; AVX512BW-FALLBACK-NEXT: vpsrlq $32, %xmm0, %xmm2
-; AVX512BW-FALLBACK-NEXT: vpmuludq %xmm3, %xmm2, %xmm2
-; AVX512BW-FALLBACK-NEXT: vpsrlq $32, %xmm3, %xmm4
-; AVX512BW-FALLBACK-NEXT: vpmuludq %xmm4, %xmm0, %xmm4
-; AVX512BW-FALLBACK-NEXT: vpaddq %xmm2, %xmm4, %xmm2
-; AVX512BW-FALLBACK-NEXT: vpsllq $32, %xmm2, %xmm2
+; AVX512BW-FALLBACK-NEXT: vpsrlq $1, %xmm0, %xmm2
+; AVX512BW-FALLBACK-NEXT: vpsrlq $33, %xmm0, %xmm0
; AVX512BW-FALLBACK-NEXT: vpmuludq %xmm3, %xmm0, %xmm0
-; AVX512BW-FALLBACK-NEXT: vpaddq %xmm1, %xmm2, %xmm1
+; AVX512BW-FALLBACK-NEXT: vpsrlq $32, %xmm3, %xmm4
+; AVX512BW-FALLBACK-NEXT: vpmuludq %xmm4, %xmm2, %xmm4
+; AVX512BW-FALLBACK-NEXT: vpaddq %xmm0, %xmm4, %xmm0
+; AVX512BW-FALLBACK-NEXT: vpsllq $32, %xmm0, %xmm0
+; AVX512BW-FALLBACK-NEXT: vpmuludq %xmm3, %xmm2, %xmm2
; AVX512BW-FALLBACK-NEXT: vpaddq %xmm1, %xmm0, %xmm0
+; AVX512BW-FALLBACK-NEXT: vpaddq %xmm0, %xmm2, %xmm0
; AVX512BW-FALLBACK-NEXT: vzeroupper
; AVX512BW-FALLBACK-NEXT: retq
%a1 = load <2 x i64>, <2 x i64>* %a1_addr
; SSE2-NEXT: pxor %xmm1, %xmm4
; SSE2-NEXT: movdqa %xmm5, %xmm2
; SSE2-NEXT: pcmpgtd %xmm4, %xmm2
-; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]
-; SSE2-NEXT: movdqa %xmm5, %xmm6
-; SSE2-NEXT: pcmpeqd %xmm4, %xmm6
-; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm6[1,1,3,3]
-; SSE2-NEXT: pand %xmm6, %xmm3
-; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
+; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm2[0,0,2,2]
+; SSE2-NEXT: movdqa %xmm5, %xmm3
+; SSE2-NEXT: pcmpeqd %xmm4, %xmm3
+; SSE2-NEXT: pshufd {{.*#+}} xmm7 = xmm3[1,1,3,3]
+; SSE2-NEXT: pand %xmm7, %xmm6
+; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm2[1,1,3,3]
+; SSE2-NEXT: por %xmm6, %xmm3
+; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [1,1]
; SSE2-NEXT: por %xmm3, %xmm2
-; SSE2-NEXT: movdqa {{.*#+}} xmm3 = [1,1]
-; SSE2-NEXT: por %xmm2, %xmm3
; SSE2-NEXT: pcmpgtd %xmm5, %xmm4
; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm4[0,0,2,2]
-; SSE2-NEXT: pand %xmm6, %xmm5
+; SSE2-NEXT: pand %xmm7, %xmm5
; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm4[1,1,3,3]
; SSE2-NEXT: por %xmm5, %xmm4
; SSE2-NEXT: movdqa %xmm0, %xmm5
; SSE2-NEXT: pandn %xmm1, %xmm4
; SSE2-NEXT: por %xmm5, %xmm4
; SSE2-NEXT: movdqa %xmm0, %xmm5
-; SSE2-NEXT: pand %xmm2, %xmm5
-; SSE2-NEXT: pandn %xmm1, %xmm2
-; SSE2-NEXT: por %xmm5, %xmm2
-; SSE2-NEXT: psubq %xmm4, %xmm2
-; SSE2-NEXT: psrlq $1, %xmm2
+; SSE2-NEXT: pand %xmm3, %xmm5
+; SSE2-NEXT: pandn %xmm1, %xmm3
+; SSE2-NEXT: por %xmm5, %xmm3
+; SSE2-NEXT: psubq %xmm4, %xmm3
; SSE2-NEXT: movdqa %xmm3, %xmm4
-; SSE2-NEXT: psrlq $32, %xmm4
-; SSE2-NEXT: pmuludq %xmm2, %xmm4
+; SSE2-NEXT: psrlq $1, %xmm4
+; SSE2-NEXT: psrlq $33, %xmm3
+; SSE2-NEXT: pmuludq %xmm2, %xmm3
; SSE2-NEXT: movdqa %xmm2, %xmm1
; SSE2-NEXT: psrlq $32, %xmm1
-; SSE2-NEXT: pmuludq %xmm3, %xmm1
-; SSE2-NEXT: paddq %xmm4, %xmm1
+; SSE2-NEXT: pmuludq %xmm4, %xmm1
+; SSE2-NEXT: paddq %xmm3, %xmm1
; SSE2-NEXT: psllq $32, %xmm1
-; SSE2-NEXT: pmuludq %xmm3, %xmm2
+; SSE2-NEXT: pmuludq %xmm2, %xmm4
; SSE2-NEXT: paddq %xmm0, %xmm1
-; SSE2-NEXT: paddq %xmm2, %xmm1
+; SSE2-NEXT: paddq %xmm4, %xmm1
; SSE2-NEXT: movdqa %xmm1, %xmm0
; SSE2-NEXT: retq
;
; SSE41-NEXT: movdqa %xmm2, %xmm0
; SSE41-NEXT: blendvpd %xmm0, %xmm1, %xmm3
; SSE41-NEXT: psubq %xmm5, %xmm3
-; SSE41-NEXT: psrlq $1, %xmm3
-; SSE41-NEXT: movdqa %xmm4, %xmm2
-; SSE41-NEXT: psrlq $32, %xmm2
-; SSE41-NEXT: pmuludq %xmm3, %xmm2
-; SSE41-NEXT: movdqa %xmm3, %xmm0
+; SSE41-NEXT: movdqa %xmm3, %xmm2
+; SSE41-NEXT: psrlq $1, %xmm2
+; SSE41-NEXT: psrlq $33, %xmm3
+; SSE41-NEXT: pmuludq %xmm4, %xmm3
+; SSE41-NEXT: movdqa %xmm4, %xmm0
; SSE41-NEXT: psrlq $32, %xmm0
-; SSE41-NEXT: pmuludq %xmm4, %xmm0
-; SSE41-NEXT: paddq %xmm2, %xmm0
+; SSE41-NEXT: pmuludq %xmm2, %xmm0
+; SSE41-NEXT: paddq %xmm3, %xmm0
; SSE41-NEXT: psllq $32, %xmm0
-; SSE41-NEXT: pmuludq %xmm4, %xmm3
+; SSE41-NEXT: pmuludq %xmm4, %xmm2
; SSE41-NEXT: paddq %xmm1, %xmm0
-; SSE41-NEXT: paddq %xmm3, %xmm0
+; SSE41-NEXT: paddq %xmm2, %xmm0
; SSE41-NEXT: retq
;
; AVX1-FALLBACK-LABEL: vec128_i64_signed_reg_mem:
; AVX1-FALLBACK-NEXT: vblendvpd %xmm4, %xmm0, %xmm1, %xmm4
; AVX1-FALLBACK-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1
; AVX1-FALLBACK-NEXT: vpsubq %xmm4, %xmm1, %xmm1
-; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm1
-; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm3, %xmm2
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm2, %xmm1, %xmm2
-; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm1, %xmm4
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm3, %xmm4, %xmm4
-; AVX1-FALLBACK-NEXT: vpaddq %xmm4, %xmm2, %xmm2
-; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm2, %xmm2
+; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm2
+; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1
; AVX1-FALLBACK-NEXT: vpmuludq %xmm3, %xmm1, %xmm1
-; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm2, %xmm0
+; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm3, %xmm4
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm4, %xmm2, %xmm4
+; AVX1-FALLBACK-NEXT: vpaddq %xmm1, %xmm4, %xmm1
+; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm1, %xmm1
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm3, %xmm2, %xmm2
; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm1, %xmm0
+; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm2, %xmm0
; AVX1-FALLBACK-NEXT: retq
;
; AVX2-FALLBACK-LABEL: vec128_i64_signed_reg_mem:
; AVX2-FALLBACK-NEXT: vblendvpd %xmm4, %xmm0, %xmm1, %xmm4
; AVX2-FALLBACK-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1
; AVX2-FALLBACK-NEXT: vpsubq %xmm4, %xmm1, %xmm1
-; AVX2-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm1
-; AVX2-FALLBACK-NEXT: vpsrlq $32, %xmm3, %xmm2
-; AVX2-FALLBACK-NEXT: vpmuludq %xmm2, %xmm1, %xmm2
-; AVX2-FALLBACK-NEXT: vpsrlq $32, %xmm1, %xmm4
-; AVX2-FALLBACK-NEXT: vpmuludq %xmm3, %xmm4, %xmm4
-; AVX2-FALLBACK-NEXT: vpaddq %xmm4, %xmm2, %xmm2
-; AVX2-FALLBACK-NEXT: vpsllq $32, %xmm2, %xmm2
+; AVX2-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm2
+; AVX2-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1
; AVX2-FALLBACK-NEXT: vpmuludq %xmm3, %xmm1, %xmm1
-; AVX2-FALLBACK-NEXT: vpaddq %xmm0, %xmm2, %xmm0
+; AVX2-FALLBACK-NEXT: vpsrlq $32, %xmm3, %xmm4
+; AVX2-FALLBACK-NEXT: vpmuludq %xmm4, %xmm2, %xmm4
+; AVX2-FALLBACK-NEXT: vpaddq %xmm1, %xmm4, %xmm1
+; AVX2-FALLBACK-NEXT: vpsllq $32, %xmm1, %xmm1
+; AVX2-FALLBACK-NEXT: vpmuludq %xmm3, %xmm2, %xmm2
; AVX2-FALLBACK-NEXT: vpaddq %xmm0, %xmm1, %xmm0
+; AVX2-FALLBACK-NEXT: vpaddq %xmm0, %xmm2, %xmm0
; AVX2-FALLBACK-NEXT: retq
;
; XOP-LABEL: vec128_i64_signed_reg_mem:
; XOP-NEXT: vblendvpd %xmm4, %xmm0, %xmm1, %xmm4
; XOP-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1
; XOP-NEXT: vpsubq %xmm4, %xmm1, %xmm1
-; XOP-NEXT: vpsrlq $1, %xmm1, %xmm1
-; XOP-NEXT: vpsrlq $32, %xmm3, %xmm2
-; XOP-NEXT: vpmuludq %xmm2, %xmm1, %xmm2
-; XOP-NEXT: vpsrlq $32, %xmm1, %xmm4
-; XOP-NEXT: vpmuludq %xmm3, %xmm4, %xmm4
-; XOP-NEXT: vpaddq %xmm4, %xmm2, %xmm2
-; XOP-NEXT: vpsllq $32, %xmm2, %xmm2
+; XOP-NEXT: vpsrlq $1, %xmm1, %xmm2
+; XOP-NEXT: vpsrlq $33, %xmm1, %xmm1
; XOP-NEXT: vpmuludq %xmm3, %xmm1, %xmm1
-; XOP-NEXT: vpaddq %xmm0, %xmm2, %xmm0
+; XOP-NEXT: vpsrlq $32, %xmm3, %xmm4
+; XOP-NEXT: vpmuludq %xmm4, %xmm2, %xmm4
+; XOP-NEXT: vpaddq %xmm1, %xmm4, %xmm1
+; XOP-NEXT: vpsllq $32, %xmm1, %xmm1
+; XOP-NEXT: vpmuludq %xmm3, %xmm2, %xmm2
; XOP-NEXT: vpaddq %xmm0, %xmm1, %xmm0
+; XOP-NEXT: vpaddq %xmm0, %xmm2, %xmm0
; XOP-NEXT: retq
;
; AVX512F-LABEL: vec128_i64_signed_reg_mem:
; AVX512F-NEXT: vpminsq %zmm1, %zmm0, %zmm2
; AVX512F-NEXT: vpmaxsq %zmm1, %zmm0, %zmm1
; AVX512F-NEXT: vpsubq %xmm2, %xmm1, %xmm1
-; AVX512F-NEXT: vpsrlq $1, %xmm1, %xmm1
-; AVX512F-NEXT: vpsrlq $32, %xmm1, %xmm2
-; AVX512F-NEXT: vpmuludq %xmm3, %xmm2, %xmm2
-; AVX512F-NEXT: vpsrlq $32, %xmm3, %xmm4
-; AVX512F-NEXT: vpmuludq %xmm4, %xmm1, %xmm4
-; AVX512F-NEXT: vpaddq %xmm2, %xmm4, %xmm2
-; AVX512F-NEXT: vpsllq $32, %xmm2, %xmm2
+; AVX512F-NEXT: vpsrlq $1, %xmm1, %xmm2
+; AVX512F-NEXT: vpsrlq $33, %xmm1, %xmm1
; AVX512F-NEXT: vpmuludq %xmm3, %xmm1, %xmm1
-; AVX512F-NEXT: vpaddq %xmm0, %xmm2, %xmm0
+; AVX512F-NEXT: vpsrlq $32, %xmm3, %xmm4
+; AVX512F-NEXT: vpmuludq %xmm4, %xmm2, %xmm4
+; AVX512F-NEXT: vpaddq %xmm1, %xmm4, %xmm1
+; AVX512F-NEXT: vpsllq $32, %xmm1, %xmm1
+; AVX512F-NEXT: vpmuludq %xmm3, %xmm2, %xmm2
; AVX512F-NEXT: vpaddq %xmm0, %xmm1, %xmm0
+; AVX512F-NEXT: vpaddq %xmm0, %xmm2, %xmm0
; AVX512F-NEXT: vzeroupper
; AVX512F-NEXT: retq
;
; AVX512VL-NEXT: vpminsq %xmm1, %xmm0, %xmm2
; AVX512VL-NEXT: vpmaxsq %xmm1, %xmm0, %xmm1
; AVX512VL-NEXT: vpsubq %xmm2, %xmm1, %xmm1
-; AVX512VL-NEXT: vpsrlq $1, %xmm1, %xmm1
-; AVX512VL-NEXT: vpsrlq $32, %xmm3, %xmm2
-; AVX512VL-NEXT: vpmuludq %xmm2, %xmm1, %xmm2
-; AVX512VL-NEXT: vpsrlq $32, %xmm1, %xmm4
-; AVX512VL-NEXT: vpmuludq %xmm3, %xmm4, %xmm4
-; AVX512VL-NEXT: vpaddq %xmm4, %xmm2, %xmm2
-; AVX512VL-NEXT: vpsllq $32, %xmm2, %xmm2
+; AVX512VL-NEXT: vpsrlq $1, %xmm1, %xmm2
+; AVX512VL-NEXT: vpsrlq $33, %xmm1, %xmm1
; AVX512VL-NEXT: vpmuludq %xmm3, %xmm1, %xmm1
-; AVX512VL-NEXT: vpaddq %xmm0, %xmm2, %xmm0
+; AVX512VL-NEXT: vpsrlq $32, %xmm3, %xmm4
+; AVX512VL-NEXT: vpmuludq %xmm4, %xmm2, %xmm4
+; AVX512VL-NEXT: vpaddq %xmm1, %xmm4, %xmm1
+; AVX512VL-NEXT: vpsllq $32, %xmm1, %xmm1
+; AVX512VL-NEXT: vpmuludq %xmm3, %xmm2, %xmm2
; AVX512VL-NEXT: vpaddq %xmm0, %xmm1, %xmm0
+; AVX512VL-NEXT: vpaddq %xmm0, %xmm2, %xmm0
; AVX512VL-NEXT: retq
;
; AVX512BW-FALLBACK-LABEL: vec128_i64_signed_reg_mem:
; AVX512BW-FALLBACK-NEXT: vpminsq %zmm1, %zmm0, %zmm2
; AVX512BW-FALLBACK-NEXT: vpmaxsq %zmm1, %zmm0, %zmm1
; AVX512BW-FALLBACK-NEXT: vpsubq %xmm2, %xmm1, %xmm1
-; AVX512BW-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm1
-; AVX512BW-FALLBACK-NEXT: vpsrlq $32, %xmm1, %xmm2
-; AVX512BW-FALLBACK-NEXT: vpmuludq %xmm3, %xmm2, %xmm2
-; AVX512BW-FALLBACK-NEXT: vpsrlq $32, %xmm3, %xmm4
-; AVX512BW-FALLBACK-NEXT: vpmuludq %xmm4, %xmm1, %xmm4
-; AVX512BW-FALLBACK-NEXT: vpaddq %xmm2, %xmm4, %xmm2
-; AVX512BW-FALLBACK-NEXT: vpsllq $32, %xmm2, %xmm2
+; AVX512BW-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm2
+; AVX512BW-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1
; AVX512BW-FALLBACK-NEXT: vpmuludq %xmm3, %xmm1, %xmm1
-; AVX512BW-FALLBACK-NEXT: vpaddq %xmm0, %xmm2, %xmm0
+; AVX512BW-FALLBACK-NEXT: vpsrlq $32, %xmm3, %xmm4
+; AVX512BW-FALLBACK-NEXT: vpmuludq %xmm4, %xmm2, %xmm4
+; AVX512BW-FALLBACK-NEXT: vpaddq %xmm1, %xmm4, %xmm1
+; AVX512BW-FALLBACK-NEXT: vpsllq $32, %xmm1, %xmm1
+; AVX512BW-FALLBACK-NEXT: vpmuludq %xmm3, %xmm2, %xmm2
; AVX512BW-FALLBACK-NEXT: vpaddq %xmm0, %xmm1, %xmm0
+; AVX512BW-FALLBACK-NEXT: vpaddq %xmm0, %xmm2, %xmm0
; AVX512BW-FALLBACK-NEXT: vzeroupper
; AVX512BW-FALLBACK-NEXT: retq
%a2 = load <2 x i64>, <2 x i64>* %a2_addr
; SSE2-NEXT: pxor %xmm1, %xmm4
; SSE2-NEXT: movdqa %xmm4, %xmm2
; SSE2-NEXT: pcmpgtd %xmm5, %xmm2
-; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm2[0,0,2,2]
-; SSE2-NEXT: movdqa %xmm4, %xmm6
-; SSE2-NEXT: pcmpeqd %xmm5, %xmm6
-; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm6[1,1,3,3]
-; SSE2-NEXT: pand %xmm6, %xmm3
-; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]
+; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm2[0,0,2,2]
+; SSE2-NEXT: movdqa %xmm4, %xmm3
+; SSE2-NEXT: pcmpeqd %xmm5, %xmm3
+; SSE2-NEXT: pshufd {{.*#+}} xmm7 = xmm3[1,1,3,3]
+; SSE2-NEXT: pand %xmm7, %xmm6
+; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm2[1,1,3,3]
+; SSE2-NEXT: por %xmm6, %xmm3
+; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [1,1]
; SSE2-NEXT: por %xmm3, %xmm2
-; SSE2-NEXT: movdqa {{.*#+}} xmm3 = [1,1]
-; SSE2-NEXT: por %xmm2, %xmm3
; SSE2-NEXT: pcmpgtd %xmm4, %xmm5
; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm5[0,0,2,2]
-; SSE2-NEXT: pand %xmm6, %xmm4
+; SSE2-NEXT: pand %xmm7, %xmm4
; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm5[1,1,3,3]
; SSE2-NEXT: por %xmm4, %xmm5
; SSE2-NEXT: movdqa %xmm1, %xmm4
; SSE2-NEXT: pandn %xmm0, %xmm5
; SSE2-NEXT: por %xmm4, %xmm5
; SSE2-NEXT: movdqa %xmm1, %xmm4
-; SSE2-NEXT: pand %xmm2, %xmm4
-; SSE2-NEXT: pandn %xmm0, %xmm2
-; SSE2-NEXT: por %xmm4, %xmm2
-; SSE2-NEXT: psubq %xmm5, %xmm2
-; SSE2-NEXT: psrlq $1, %xmm2
+; SSE2-NEXT: pand %xmm3, %xmm4
+; SSE2-NEXT: pandn %xmm0, %xmm3
+; SSE2-NEXT: por %xmm4, %xmm3
+; SSE2-NEXT: psubq %xmm5, %xmm3
; SSE2-NEXT: movdqa %xmm3, %xmm4
-; SSE2-NEXT: psrlq $32, %xmm4
-; SSE2-NEXT: pmuludq %xmm2, %xmm4
+; SSE2-NEXT: psrlq $1, %xmm4
+; SSE2-NEXT: psrlq $33, %xmm3
+; SSE2-NEXT: pmuludq %xmm2, %xmm3
; SSE2-NEXT: movdqa %xmm2, %xmm0
; SSE2-NEXT: psrlq $32, %xmm0
-; SSE2-NEXT: pmuludq %xmm3, %xmm0
-; SSE2-NEXT: paddq %xmm4, %xmm0
+; SSE2-NEXT: pmuludq %xmm4, %xmm0
+; SSE2-NEXT: paddq %xmm3, %xmm0
; SSE2-NEXT: psllq $32, %xmm0
-; SSE2-NEXT: pmuludq %xmm3, %xmm2
+; SSE2-NEXT: pmuludq %xmm2, %xmm4
; SSE2-NEXT: paddq %xmm1, %xmm0
-; SSE2-NEXT: paddq %xmm2, %xmm0
+; SSE2-NEXT: paddq %xmm4, %xmm0
; SSE2-NEXT: retq
;
; SSE41-LABEL: vec128_i64_signed_mem_mem:
; SSE41: # %bb.0:
-; SSE41-NEXT: movdqa (%rdi), %xmm3
-; SSE41-NEXT: movdqa (%rsi), %xmm2
+; SSE41-NEXT: movdqa (%rdi), %xmm2
+; SSE41-NEXT: movdqa (%rsi), %xmm3
; SSE41-NEXT: movdqa {{.*#+}} xmm0 = [2147483648,2147483648]
-; SSE41-NEXT: movdqa %xmm2, %xmm5
+; SSE41-NEXT: movdqa %xmm3, %xmm5
; SSE41-NEXT: pxor %xmm0, %xmm5
-; SSE41-NEXT: pxor %xmm3, %xmm0
+; SSE41-NEXT: pxor %xmm2, %xmm0
; SSE41-NEXT: movdqa %xmm0, %xmm1
; SSE41-NEXT: pcmpgtd %xmm5, %xmm1
; SSE41-NEXT: pshufd {{.*#+}} xmm4 = xmm1[0,0,2,2]
; SSE41-NEXT: pshufd {{.*#+}} xmm0 = xmm5[0,0,2,2]
; SSE41-NEXT: pand %xmm6, %xmm0
; SSE41-NEXT: por %xmm5, %xmm0
-; SSE41-NEXT: movdqa %xmm2, %xmm5
-; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm5
+; SSE41-NEXT: movdqa %xmm3, %xmm5
+; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm5
; SSE41-NEXT: movdqa %xmm1, %xmm0
-; SSE41-NEXT: blendvpd %xmm0, %xmm3, %xmm2
-; SSE41-NEXT: psubq %xmm5, %xmm2
-; SSE41-NEXT: psrlq $1, %xmm2
-; SSE41-NEXT: movdqa %xmm4, %xmm1
-; SSE41-NEXT: psrlq $32, %xmm1
-; SSE41-NEXT: pmuludq %xmm2, %xmm1
-; SSE41-NEXT: movdqa %xmm2, %xmm0
+; SSE41-NEXT: blendvpd %xmm0, %xmm2, %xmm3
+; SSE41-NEXT: psubq %xmm5, %xmm3
+; SSE41-NEXT: movdqa %xmm3, %xmm1
+; SSE41-NEXT: psrlq $1, %xmm1
+; SSE41-NEXT: psrlq $33, %xmm3
+; SSE41-NEXT: pmuludq %xmm4, %xmm3
+; SSE41-NEXT: movdqa %xmm4, %xmm0
; SSE41-NEXT: psrlq $32, %xmm0
-; SSE41-NEXT: pmuludq %xmm4, %xmm0
-; SSE41-NEXT: paddq %xmm1, %xmm0
-; SSE41-NEXT: psllq $32, %xmm0
-; SSE41-NEXT: pmuludq %xmm4, %xmm2
+; SSE41-NEXT: pmuludq %xmm1, %xmm0
; SSE41-NEXT: paddq %xmm3, %xmm0
+; SSE41-NEXT: psllq $32, %xmm0
+; SSE41-NEXT: pmuludq %xmm4, %xmm1
; SSE41-NEXT: paddq %xmm2, %xmm0
+; SSE41-NEXT: paddq %xmm1, %xmm0
; SSE41-NEXT: retq
;
; AVX1-FALLBACK-LABEL: vec128_i64_signed_mem_mem:
; AVX1-FALLBACK-NEXT: vblendvpd %xmm4, %xmm0, %xmm1, %xmm4
; AVX1-FALLBACK-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1
; AVX1-FALLBACK-NEXT: vpsubq %xmm4, %xmm1, %xmm1
-; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm1
-; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm3, %xmm2
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm2, %xmm1, %xmm2
-; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm1, %xmm4
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm3, %xmm4, %xmm4
-; AVX1-FALLBACK-NEXT: vpaddq %xmm4, %xmm2, %xmm2
-; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm2, %xmm2
+; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm2
+; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1
; AVX1-FALLBACK-NEXT: vpmuludq %xmm3, %xmm1, %xmm1
-; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm2, %xmm0
+; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm3, %xmm4
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm4, %xmm2, %xmm4
+; AVX1-FALLBACK-NEXT: vpaddq %xmm1, %xmm4, %xmm1
+; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm1, %xmm1
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm3, %xmm2, %xmm2
; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm1, %xmm0
+; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm2, %xmm0
; AVX1-FALLBACK-NEXT: retq
;
; AVX2-FALLBACK-LABEL: vec128_i64_signed_mem_mem:
; AVX2-FALLBACK-NEXT: vblendvpd %xmm4, %xmm0, %xmm1, %xmm4
; AVX2-FALLBACK-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1
; AVX2-FALLBACK-NEXT: vpsubq %xmm4, %xmm1, %xmm1
-; AVX2-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm1
-; AVX2-FALLBACK-NEXT: vpsrlq $32, %xmm3, %xmm2
-; AVX2-FALLBACK-NEXT: vpmuludq %xmm2, %xmm1, %xmm2
-; AVX2-FALLBACK-NEXT: vpsrlq $32, %xmm1, %xmm4
-; AVX2-FALLBACK-NEXT: vpmuludq %xmm3, %xmm4, %xmm4
-; AVX2-FALLBACK-NEXT: vpaddq %xmm4, %xmm2, %xmm2
-; AVX2-FALLBACK-NEXT: vpsllq $32, %xmm2, %xmm2
+; AVX2-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm2
+; AVX2-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1
; AVX2-FALLBACK-NEXT: vpmuludq %xmm3, %xmm1, %xmm1
-; AVX2-FALLBACK-NEXT: vpaddq %xmm0, %xmm2, %xmm0
+; AVX2-FALLBACK-NEXT: vpsrlq $32, %xmm3, %xmm4
+; AVX2-FALLBACK-NEXT: vpmuludq %xmm4, %xmm2, %xmm4
+; AVX2-FALLBACK-NEXT: vpaddq %xmm1, %xmm4, %xmm1
+; AVX2-FALLBACK-NEXT: vpsllq $32, %xmm1, %xmm1
+; AVX2-FALLBACK-NEXT: vpmuludq %xmm3, %xmm2, %xmm2
; AVX2-FALLBACK-NEXT: vpaddq %xmm0, %xmm1, %xmm0
+; AVX2-FALLBACK-NEXT: vpaddq %xmm0, %xmm2, %xmm0
; AVX2-FALLBACK-NEXT: retq
;
; XOP-LABEL: vec128_i64_signed_mem_mem:
; XOP-NEXT: vblendvpd %xmm4, %xmm0, %xmm1, %xmm4
; XOP-NEXT: vblendvpd %xmm2, %xmm0, %xmm1, %xmm1
; XOP-NEXT: vpsubq %xmm4, %xmm1, %xmm1
-; XOP-NEXT: vpsrlq $1, %xmm1, %xmm1
-; XOP-NEXT: vpsrlq $32, %xmm3, %xmm2
-; XOP-NEXT: vpmuludq %xmm2, %xmm1, %xmm2
-; XOP-NEXT: vpsrlq $32, %xmm1, %xmm4
-; XOP-NEXT: vpmuludq %xmm3, %xmm4, %xmm4
-; XOP-NEXT: vpaddq %xmm4, %xmm2, %xmm2
-; XOP-NEXT: vpsllq $32, %xmm2, %xmm2
+; XOP-NEXT: vpsrlq $1, %xmm1, %xmm2
+; XOP-NEXT: vpsrlq $33, %xmm1, %xmm1
; XOP-NEXT: vpmuludq %xmm3, %xmm1, %xmm1
-; XOP-NEXT: vpaddq %xmm0, %xmm2, %xmm0
+; XOP-NEXT: vpsrlq $32, %xmm3, %xmm4
+; XOP-NEXT: vpmuludq %xmm4, %xmm2, %xmm4
+; XOP-NEXT: vpaddq %xmm1, %xmm4, %xmm1
+; XOP-NEXT: vpsllq $32, %xmm1, %xmm1
+; XOP-NEXT: vpmuludq %xmm3, %xmm2, %xmm2
; XOP-NEXT: vpaddq %xmm0, %xmm1, %xmm0
+; XOP-NEXT: vpaddq %xmm0, %xmm2, %xmm0
; XOP-NEXT: retq
;
; AVX512F-LABEL: vec128_i64_signed_mem_mem:
; AVX512F-NEXT: vpminsq %zmm1, %zmm0, %zmm2
; AVX512F-NEXT: vpmaxsq %zmm1, %zmm0, %zmm1
; AVX512F-NEXT: vpsubq %xmm2, %xmm1, %xmm1
-; AVX512F-NEXT: vpsrlq $1, %xmm1, %xmm1
-; AVX512F-NEXT: vpsrlq $32, %xmm1, %xmm2
-; AVX512F-NEXT: vpmuludq %xmm3, %xmm2, %xmm2
-; AVX512F-NEXT: vpsrlq $32, %xmm3, %xmm4
-; AVX512F-NEXT: vpmuludq %xmm4, %xmm1, %xmm4
-; AVX512F-NEXT: vpaddq %xmm2, %xmm4, %xmm2
-; AVX512F-NEXT: vpsllq $32, %xmm2, %xmm2
+; AVX512F-NEXT: vpsrlq $1, %xmm1, %xmm2
+; AVX512F-NEXT: vpsrlq $33, %xmm1, %xmm1
; AVX512F-NEXT: vpmuludq %xmm3, %xmm1, %xmm1
-; AVX512F-NEXT: vpaddq %xmm0, %xmm2, %xmm0
+; AVX512F-NEXT: vpsrlq $32, %xmm3, %xmm4
+; AVX512F-NEXT: vpmuludq %xmm4, %xmm2, %xmm4
+; AVX512F-NEXT: vpaddq %xmm1, %xmm4, %xmm1
+; AVX512F-NEXT: vpsllq $32, %xmm1, %xmm1
+; AVX512F-NEXT: vpmuludq %xmm3, %xmm2, %xmm2
; AVX512F-NEXT: vpaddq %xmm0, %xmm1, %xmm0
+; AVX512F-NEXT: vpaddq %xmm0, %xmm2, %xmm0
; AVX512F-NEXT: vzeroupper
; AVX512F-NEXT: retq
;
; AVX512VL-NEXT: vpminsq %xmm1, %xmm0, %xmm2
; AVX512VL-NEXT: vpmaxsq %xmm1, %xmm0, %xmm1
; AVX512VL-NEXT: vpsubq %xmm2, %xmm1, %xmm1
-; AVX512VL-NEXT: vpsrlq $1, %xmm1, %xmm1
-; AVX512VL-NEXT: vpsrlq $32, %xmm3, %xmm2
-; AVX512VL-NEXT: vpmuludq %xmm2, %xmm1, %xmm2
-; AVX512VL-NEXT: vpsrlq $32, %xmm1, %xmm4
-; AVX512VL-NEXT: vpmuludq %xmm3, %xmm4, %xmm4
-; AVX512VL-NEXT: vpaddq %xmm4, %xmm2, %xmm2
-; AVX512VL-NEXT: vpsllq $32, %xmm2, %xmm2
+; AVX512VL-NEXT: vpsrlq $1, %xmm1, %xmm2
+; AVX512VL-NEXT: vpsrlq $33, %xmm1, %xmm1
; AVX512VL-NEXT: vpmuludq %xmm3, %xmm1, %xmm1
-; AVX512VL-NEXT: vpaddq %xmm0, %xmm2, %xmm0
+; AVX512VL-NEXT: vpsrlq $32, %xmm3, %xmm4
+; AVX512VL-NEXT: vpmuludq %xmm4, %xmm2, %xmm4
+; AVX512VL-NEXT: vpaddq %xmm1, %xmm4, %xmm1
+; AVX512VL-NEXT: vpsllq $32, %xmm1, %xmm1
+; AVX512VL-NEXT: vpmuludq %xmm3, %xmm2, %xmm2
; AVX512VL-NEXT: vpaddq %xmm0, %xmm1, %xmm0
+; AVX512VL-NEXT: vpaddq %xmm0, %xmm2, %xmm0
; AVX512VL-NEXT: retq
;
; AVX512BW-FALLBACK-LABEL: vec128_i64_signed_mem_mem:
; AVX512BW-FALLBACK-NEXT: vpminsq %zmm1, %zmm0, %zmm2
; AVX512BW-FALLBACK-NEXT: vpmaxsq %zmm1, %zmm0, %zmm1
; AVX512BW-FALLBACK-NEXT: vpsubq %xmm2, %xmm1, %xmm1
-; AVX512BW-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm1
-; AVX512BW-FALLBACK-NEXT: vpsrlq $32, %xmm1, %xmm2
-; AVX512BW-FALLBACK-NEXT: vpmuludq %xmm3, %xmm2, %xmm2
-; AVX512BW-FALLBACK-NEXT: vpsrlq $32, %xmm3, %xmm4
-; AVX512BW-FALLBACK-NEXT: vpmuludq %xmm4, %xmm1, %xmm4
-; AVX512BW-FALLBACK-NEXT: vpaddq %xmm2, %xmm4, %xmm2
-; AVX512BW-FALLBACK-NEXT: vpsllq $32, %xmm2, %xmm2
+; AVX512BW-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm2
+; AVX512BW-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1
; AVX512BW-FALLBACK-NEXT: vpmuludq %xmm3, %xmm1, %xmm1
-; AVX512BW-FALLBACK-NEXT: vpaddq %xmm0, %xmm2, %xmm0
+; AVX512BW-FALLBACK-NEXT: vpsrlq $32, %xmm3, %xmm4
+; AVX512BW-FALLBACK-NEXT: vpmuludq %xmm4, %xmm2, %xmm4
+; AVX512BW-FALLBACK-NEXT: vpaddq %xmm1, %xmm4, %xmm1
+; AVX512BW-FALLBACK-NEXT: vpsllq $32, %xmm1, %xmm1
+; AVX512BW-FALLBACK-NEXT: vpmuludq %xmm3, %xmm2, %xmm2
; AVX512BW-FALLBACK-NEXT: vpaddq %xmm0, %xmm1, %xmm0
+; AVX512BW-FALLBACK-NEXT: vpaddq %xmm0, %xmm2, %xmm0
; AVX512BW-FALLBACK-NEXT: vzeroupper
; AVX512BW-FALLBACK-NEXT: retq
%a1 = load <2 x i64>, <2 x i64>* %a1_addr
; AVX1-FALLBACK: # %bb.0:
; AVX1-FALLBACK-NEXT: vextractf128 $1, %ymm1, %xmm2
; AVX1-FALLBACK-NEXT: vextractf128 $1, %ymm0, %xmm3
-; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm4
+; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm9
; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm5
; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm6
; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm7
; AVX1-FALLBACK-NEXT: vblendvpd %xmm5, %xmm0, %xmm1, %xmm1
; AVX1-FALLBACK-NEXT: vpsubq %xmm7, %xmm1, %xmm1
; AVX1-FALLBACK-NEXT: vblendvpd %xmm6, %xmm3, %xmm2, %xmm6
-; AVX1-FALLBACK-NEXT: vblendvpd %xmm4, %xmm3, %xmm2, %xmm2
+; AVX1-FALLBACK-NEXT: vblendvpd %xmm9, %xmm3, %xmm2, %xmm2
; AVX1-FALLBACK-NEXT: vpsubq %xmm6, %xmm2, %xmm2
-; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm2, %xmm2
-; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm1
+; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm2, %xmm6
+; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm7
+; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1
; AVX1-FALLBACK-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1]
; AVX1-FALLBACK-NEXT: vpor %xmm5, %xmm8, %xmm5
-; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm7
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm7, %xmm1, %xmm7
-; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm1, %xmm6
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm6, %xmm6
-; AVX1-FALLBACK-NEXT: vpaddq %xmm6, %xmm7, %xmm6
-; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm6, %xmm6
; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm1, %xmm1
-; AVX1-FALLBACK-NEXT: vpor %xmm4, %xmm8, %xmm4
-; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm4, %xmm5
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm2, %xmm5
-; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm2, %xmm7
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm4, %xmm7, %xmm7
-; AVX1-FALLBACK-NEXT: vpaddq %xmm7, %xmm5, %xmm5
-; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm5, %xmm5
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm4, %xmm2, %xmm2
-; AVX1-FALLBACK-NEXT: vpaddq %xmm3, %xmm5, %xmm3
+; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm4
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm4, %xmm7, %xmm4
+; AVX1-FALLBACK-NEXT: vpaddq %xmm1, %xmm4, %xmm1
+; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm1, %xmm1
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm7, %xmm4
+; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm2, %xmm2
+; AVX1-FALLBACK-NEXT: vpor %xmm8, %xmm9, %xmm5
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm2, %xmm2
+; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm7
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm7, %xmm6, %xmm7
+; AVX1-FALLBACK-NEXT: vpaddq %xmm2, %xmm7, %xmm2
+; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm2, %xmm2
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm6, %xmm5
; AVX1-FALLBACK-NEXT: vpaddq %xmm3, %xmm2, %xmm2
-; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm6, %xmm0
+; AVX1-FALLBACK-NEXT: vpaddq %xmm2, %xmm5, %xmm2
; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm1, %xmm0
+; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm4, %xmm0
; AVX1-FALLBACK-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; AVX1-FALLBACK-NEXT: retq
;
; AVX2-NEXT: vblendvpd %ymm4, %ymm0, %ymm1, %ymm4
; AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm1
; AVX2-NEXT: vpsubq %ymm4, %ymm1, %ymm1
-; AVX2-NEXT: vpsrlq $1, %ymm1, %ymm1
-; AVX2-NEXT: vpsrlq $32, %ymm3, %ymm2
-; AVX2-NEXT: vpmuludq %ymm2, %ymm1, %ymm2
-; AVX2-NEXT: vpsrlq $32, %ymm1, %ymm4
-; AVX2-NEXT: vpmuludq %ymm3, %ymm4, %ymm4
-; AVX2-NEXT: vpaddq %ymm4, %ymm2, %ymm2
-; AVX2-NEXT: vpsllq $32, %ymm2, %ymm2
+; AVX2-NEXT: vpsrlq $1, %ymm1, %ymm2
+; AVX2-NEXT: vpsrlq $33, %ymm1, %ymm1
; AVX2-NEXT: vpmuludq %ymm3, %ymm1, %ymm1
-; AVX2-NEXT: vpaddq %ymm0, %ymm2, %ymm0
+; AVX2-NEXT: vpsrlq $32, %ymm3, %ymm4
+; AVX2-NEXT: vpmuludq %ymm4, %ymm2, %ymm4
+; AVX2-NEXT: vpaddq %ymm1, %ymm4, %ymm1
+; AVX2-NEXT: vpsllq $32, %ymm1, %ymm1
+; AVX2-NEXT: vpmuludq %ymm3, %ymm2, %ymm2
; AVX2-NEXT: vpaddq %ymm0, %ymm1, %ymm0
+; AVX2-NEXT: vpaddq %ymm0, %ymm2, %ymm0
; AVX2-NEXT: retq
;
; XOP-FALLBACK-LABEL: vec256_i64_signed_reg_reg:
; XOP-FALLBACK: # %bb.0:
; XOP-FALLBACK-NEXT: vextractf128 $1, %ymm1, %xmm2
; XOP-FALLBACK-NEXT: vextractf128 $1, %ymm0, %xmm3
-; XOP-FALLBACK-NEXT: vpcomgtq %xmm2, %xmm3, %xmm4
+; XOP-FALLBACK-NEXT: vpcomgtq %xmm2, %xmm3, %xmm9
; XOP-FALLBACK-NEXT: vpcomgtq %xmm1, %xmm0, %xmm5
; XOP-FALLBACK-NEXT: vpcomltq %xmm2, %xmm3, %xmm6
; XOP-FALLBACK-NEXT: vpcomltq %xmm1, %xmm0, %xmm7
; XOP-FALLBACK-NEXT: vblendvpd %xmm5, %xmm0, %xmm1, %xmm1
; XOP-FALLBACK-NEXT: vpsubq %xmm7, %xmm1, %xmm1
; XOP-FALLBACK-NEXT: vblendvpd %xmm6, %xmm3, %xmm2, %xmm6
-; XOP-FALLBACK-NEXT: vblendvpd %xmm4, %xmm3, %xmm2, %xmm2
+; XOP-FALLBACK-NEXT: vblendvpd %xmm9, %xmm3, %xmm2, %xmm2
; XOP-FALLBACK-NEXT: vpsubq %xmm6, %xmm2, %xmm2
-; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm2, %xmm2
-; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm1
+; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm2, %xmm6
+; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm7
+; XOP-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1
; XOP-FALLBACK-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1]
; XOP-FALLBACK-NEXT: vpor %xmm5, %xmm8, %xmm5
-; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm7
-; XOP-FALLBACK-NEXT: vpmuludq %xmm7, %xmm1, %xmm7
-; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm1, %xmm6
-; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm6, %xmm6
-; XOP-FALLBACK-NEXT: vpaddq %xmm6, %xmm7, %xmm6
-; XOP-FALLBACK-NEXT: vpsllq $32, %xmm6, %xmm6
; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm1, %xmm1
-; XOP-FALLBACK-NEXT: vpor %xmm4, %xmm8, %xmm4
-; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm4, %xmm5
-; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm2, %xmm5
-; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm2, %xmm7
-; XOP-FALLBACK-NEXT: vpmuludq %xmm4, %xmm7, %xmm7
-; XOP-FALLBACK-NEXT: vpaddq %xmm7, %xmm5, %xmm5
-; XOP-FALLBACK-NEXT: vpsllq $32, %xmm5, %xmm5
-; XOP-FALLBACK-NEXT: vpmuludq %xmm4, %xmm2, %xmm2
-; XOP-FALLBACK-NEXT: vpaddq %xmm3, %xmm5, %xmm3
+; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm4
+; XOP-FALLBACK-NEXT: vpmuludq %xmm4, %xmm7, %xmm4
+; XOP-FALLBACK-NEXT: vpaddq %xmm1, %xmm4, %xmm1
+; XOP-FALLBACK-NEXT: vpsllq $32, %xmm1, %xmm1
+; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm7, %xmm4
+; XOP-FALLBACK-NEXT: vpsrlq $33, %xmm2, %xmm2
+; XOP-FALLBACK-NEXT: vpor %xmm8, %xmm9, %xmm5
+; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm2, %xmm2
+; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm7
+; XOP-FALLBACK-NEXT: vpmuludq %xmm7, %xmm6, %xmm7
+; XOP-FALLBACK-NEXT: vpaddq %xmm2, %xmm7, %xmm2
+; XOP-FALLBACK-NEXT: vpsllq $32, %xmm2, %xmm2
+; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm6, %xmm5
; XOP-FALLBACK-NEXT: vpaddq %xmm3, %xmm2, %xmm2
-; XOP-FALLBACK-NEXT: vpaddq %xmm0, %xmm6, %xmm0
+; XOP-FALLBACK-NEXT: vpaddq %xmm2, %xmm5, %xmm2
; XOP-FALLBACK-NEXT: vpaddq %xmm0, %xmm1, %xmm0
+; XOP-FALLBACK-NEXT: vpaddq %xmm0, %xmm4, %xmm0
; XOP-FALLBACK-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; XOP-FALLBACK-NEXT: retq
;
; XOPAVX1: # %bb.0:
; XOPAVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
-; XOPAVX1-NEXT: vpcomgtq %xmm2, %xmm3, %xmm4
+; XOPAVX1-NEXT: vpcomgtq %xmm2, %xmm3, %xmm9
; XOPAVX1-NEXT: vpcomgtq %xmm1, %xmm0, %xmm5
; XOPAVX1-NEXT: vpcomltq %xmm2, %xmm3, %xmm6
; XOPAVX1-NEXT: vpcomltq %xmm1, %xmm0, %xmm7
; XOPAVX1-NEXT: vblendvpd %xmm5, %xmm0, %xmm1, %xmm1
; XOPAVX1-NEXT: vpsubq %xmm7, %xmm1, %xmm1
; XOPAVX1-NEXT: vblendvpd %xmm6, %xmm3, %xmm2, %xmm6
-; XOPAVX1-NEXT: vblendvpd %xmm4, %xmm3, %xmm2, %xmm2
+; XOPAVX1-NEXT: vblendvpd %xmm9, %xmm3, %xmm2, %xmm2
; XOPAVX1-NEXT: vpsubq %xmm6, %xmm2, %xmm2
-; XOPAVX1-NEXT: vpsrlq $1, %xmm2, %xmm2
-; XOPAVX1-NEXT: vpsrlq $1, %xmm1, %xmm1
+; XOPAVX1-NEXT: vpsrlq $1, %xmm2, %xmm6
+; XOPAVX1-NEXT: vpsrlq $1, %xmm1, %xmm7
+; XOPAVX1-NEXT: vpsrlq $33, %xmm1, %xmm1
; XOPAVX1-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1]
; XOPAVX1-NEXT: vpor %xmm5, %xmm8, %xmm5
-; XOPAVX1-NEXT: vpsrlq $32, %xmm5, %xmm7
-; XOPAVX1-NEXT: vpmuludq %xmm7, %xmm1, %xmm7
-; XOPAVX1-NEXT: vpsrlq $32, %xmm1, %xmm6
-; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm6, %xmm6
-; XOPAVX1-NEXT: vpaddq %xmm6, %xmm7, %xmm6
-; XOPAVX1-NEXT: vpsllq $32, %xmm6, %xmm6
; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm1, %xmm1
-; XOPAVX1-NEXT: vpor %xmm4, %xmm8, %xmm4
-; XOPAVX1-NEXT: vpsrlq $32, %xmm4, %xmm5
-; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm2, %xmm5
-; XOPAVX1-NEXT: vpsrlq $32, %xmm2, %xmm7
-; XOPAVX1-NEXT: vpmuludq %xmm4, %xmm7, %xmm7
-; XOPAVX1-NEXT: vpaddq %xmm7, %xmm5, %xmm5
-; XOPAVX1-NEXT: vpsllq $32, %xmm5, %xmm5
-; XOPAVX1-NEXT: vpmuludq %xmm4, %xmm2, %xmm2
-; XOPAVX1-NEXT: vpaddq %xmm3, %xmm5, %xmm3
+; XOPAVX1-NEXT: vpsrlq $32, %xmm5, %xmm4
+; XOPAVX1-NEXT: vpmuludq %xmm4, %xmm7, %xmm4
+; XOPAVX1-NEXT: vpaddq %xmm1, %xmm4, %xmm1
+; XOPAVX1-NEXT: vpsllq $32, %xmm1, %xmm1
+; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm7, %xmm4
+; XOPAVX1-NEXT: vpsrlq $33, %xmm2, %xmm2
+; XOPAVX1-NEXT: vpor %xmm8, %xmm9, %xmm5
+; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm2, %xmm2
+; XOPAVX1-NEXT: vpsrlq $32, %xmm5, %xmm7
+; XOPAVX1-NEXT: vpmuludq %xmm7, %xmm6, %xmm7
+; XOPAVX1-NEXT: vpaddq %xmm2, %xmm7, %xmm2
+; XOPAVX1-NEXT: vpsllq $32, %xmm2, %xmm2
+; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm6, %xmm5
; XOPAVX1-NEXT: vpaddq %xmm3, %xmm2, %xmm2
-; XOPAVX1-NEXT: vpaddq %xmm0, %xmm6, %xmm0
+; XOPAVX1-NEXT: vpaddq %xmm2, %xmm5, %xmm2
; XOPAVX1-NEXT: vpaddq %xmm0, %xmm1, %xmm0
+; XOPAVX1-NEXT: vpaddq %xmm0, %xmm4, %xmm0
; XOPAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; XOPAVX1-NEXT: retq
;
; AVX512F-NEXT: vpminsq %zmm1, %zmm0, %zmm2
; AVX512F-NEXT: vpmaxsq %zmm1, %zmm0, %zmm1
; AVX512F-NEXT: vpsubq %ymm2, %ymm1, %ymm1
-; AVX512F-NEXT: vpsrlq $1, %ymm1, %ymm1
-; AVX512F-NEXT: vpsrlq $32, %ymm1, %ymm2
-; AVX512F-NEXT: vpmuludq %ymm3, %ymm2, %ymm2
-; AVX512F-NEXT: vpsrlq $32, %ymm3, %ymm4
-; AVX512F-NEXT: vpmuludq %ymm4, %ymm1, %ymm4
-; AVX512F-NEXT: vpaddq %ymm2, %ymm4, %ymm2
-; AVX512F-NEXT: vpsllq $32, %ymm2, %ymm2
+; AVX512F-NEXT: vpsrlq $1, %ymm1, %ymm2
+; AVX512F-NEXT: vpsrlq $33, %ymm1, %ymm1
; AVX512F-NEXT: vpmuludq %ymm3, %ymm1, %ymm1
-; AVX512F-NEXT: vpaddq %ymm0, %ymm2, %ymm0
+; AVX512F-NEXT: vpsrlq $32, %ymm3, %ymm4
+; AVX512F-NEXT: vpmuludq %ymm4, %ymm2, %ymm4
+; AVX512F-NEXT: vpaddq %ymm1, %ymm4, %ymm1
+; AVX512F-NEXT: vpsllq $32, %ymm1, %ymm1
+; AVX512F-NEXT: vpmuludq %ymm3, %ymm2, %ymm2
; AVX512F-NEXT: vpaddq %ymm0, %ymm1, %ymm0
+; AVX512F-NEXT: vpaddq %ymm0, %ymm2, %ymm0
; AVX512F-NEXT: retq
;
; AVX512VL-LABEL: vec256_i64_signed_reg_reg:
; AVX512VL-NEXT: vpminsq %ymm1, %ymm0, %ymm2
; AVX512VL-NEXT: vpmaxsq %ymm1, %ymm0, %ymm1
; AVX512VL-NEXT: vpsubq %ymm2, %ymm1, %ymm1
-; AVX512VL-NEXT: vpsrlq $1, %ymm1, %ymm1
-; AVX512VL-NEXT: vpsrlq $32, %ymm3, %ymm2
-; AVX512VL-NEXT: vpmuludq %ymm2, %ymm1, %ymm2
-; AVX512VL-NEXT: vpsrlq $32, %ymm1, %ymm4
-; AVX512VL-NEXT: vpmuludq %ymm3, %ymm4, %ymm4
-; AVX512VL-NEXT: vpaddq %ymm4, %ymm2, %ymm2
-; AVX512VL-NEXT: vpsllq $32, %ymm2, %ymm2
+; AVX512VL-NEXT: vpsrlq $1, %ymm1, %ymm2
+; AVX512VL-NEXT: vpsrlq $33, %ymm1, %ymm1
; AVX512VL-NEXT: vpmuludq %ymm3, %ymm1, %ymm1
-; AVX512VL-NEXT: vpaddq %ymm0, %ymm2, %ymm0
+; AVX512VL-NEXT: vpsrlq $32, %ymm3, %ymm4
+; AVX512VL-NEXT: vpmuludq %ymm4, %ymm2, %ymm4
+; AVX512VL-NEXT: vpaddq %ymm1, %ymm4, %ymm1
+; AVX512VL-NEXT: vpsllq $32, %ymm1, %ymm1
+; AVX512VL-NEXT: vpmuludq %ymm3, %ymm2, %ymm2
; AVX512VL-NEXT: vpaddq %ymm0, %ymm1, %ymm0
+; AVX512VL-NEXT: vpaddq %ymm0, %ymm2, %ymm0
; AVX512VL-NEXT: retq
;
; AVX512BW-FALLBACK-LABEL: vec256_i64_signed_reg_reg:
; AVX512BW-FALLBACK-NEXT: vpminsq %zmm1, %zmm0, %zmm2
; AVX512BW-FALLBACK-NEXT: vpmaxsq %zmm1, %zmm0, %zmm1
; AVX512BW-FALLBACK-NEXT: vpsubq %ymm2, %ymm1, %ymm1
-; AVX512BW-FALLBACK-NEXT: vpsrlq $1, %ymm1, %ymm1
-; AVX512BW-FALLBACK-NEXT: vpsrlq $32, %ymm1, %ymm2
-; AVX512BW-FALLBACK-NEXT: vpmuludq %ymm3, %ymm2, %ymm2
-; AVX512BW-FALLBACK-NEXT: vpsrlq $32, %ymm3, %ymm4
-; AVX512BW-FALLBACK-NEXT: vpmuludq %ymm4, %ymm1, %ymm4
-; AVX512BW-FALLBACK-NEXT: vpaddq %ymm2, %ymm4, %ymm2
-; AVX512BW-FALLBACK-NEXT: vpsllq $32, %ymm2, %ymm2
+; AVX512BW-FALLBACK-NEXT: vpsrlq $1, %ymm1, %ymm2
+; AVX512BW-FALLBACK-NEXT: vpsrlq $33, %ymm1, %ymm1
; AVX512BW-FALLBACK-NEXT: vpmuludq %ymm3, %ymm1, %ymm1
-; AVX512BW-FALLBACK-NEXT: vpaddq %ymm0, %ymm2, %ymm0
+; AVX512BW-FALLBACK-NEXT: vpsrlq $32, %ymm3, %ymm4
+; AVX512BW-FALLBACK-NEXT: vpmuludq %ymm4, %ymm2, %ymm4
+; AVX512BW-FALLBACK-NEXT: vpaddq %ymm1, %ymm4, %ymm1
+; AVX512BW-FALLBACK-NEXT: vpsllq $32, %ymm1, %ymm1
+; AVX512BW-FALLBACK-NEXT: vpmuludq %ymm3, %ymm2, %ymm2
; AVX512BW-FALLBACK-NEXT: vpaddq %ymm0, %ymm1, %ymm0
+; AVX512BW-FALLBACK-NEXT: vpaddq %ymm0, %ymm2, %ymm0
; AVX512BW-FALLBACK-NEXT: retq
%t3 = icmp sgt <4 x i64> %a1, %a2 ; signed
%t4 = select <4 x i1> %t3, <4 x i64> <i64 -1, i64 -1, i64 -1, i64 -1>, <4 x i64> <i64 1, i64 1, i64 1, i64 1>
; AVX1-FALLBACK-NEXT: vblendvpd %xmm5, %xmm2, %xmm3, %xmm4
; AVX1-FALLBACK-NEXT: vblendvpd %xmm8, %xmm2, %xmm3, %xmm3
; AVX1-FALLBACK-NEXT: vpsubq %xmm4, %xmm3, %xmm3
-; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm3, %xmm3
-; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm1
-; AVX1-FALLBACK-NEXT: vmovdqa {{.*#+}} xmm4 = [1,1]
-; AVX1-FALLBACK-NEXT: vpor %xmm4, %xmm9, %xmm5
-; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm6
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm6, %xmm1, %xmm6
-; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm1, %xmm7
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm7, %xmm7
-; AVX1-FALLBACK-NEXT: vpaddq %xmm7, %xmm6, %xmm6
-; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm6, %xmm6
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm1, %xmm1
-; AVX1-FALLBACK-NEXT: vpor %xmm4, %xmm8, %xmm4
-; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm4, %xmm5
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm3, %xmm5
-; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm3, %xmm7
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm4, %xmm7, %xmm7
-; AVX1-FALLBACK-NEXT: vpaddq %xmm7, %xmm5, %xmm5
-; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm5, %xmm5
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm4, %xmm3, %xmm3
-; AVX1-FALLBACK-NEXT: vpaddq %xmm2, %xmm5, %xmm2
+; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm3, %xmm4
+; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm5
+; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1
+; AVX1-FALLBACK-NEXT: vmovdqa {{.*#+}} xmm10 = [1,1]
+; AVX1-FALLBACK-NEXT: vpor %xmm10, %xmm9, %xmm7
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm7, %xmm1, %xmm1
+; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm7, %xmm6
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm6, %xmm5, %xmm6
+; AVX1-FALLBACK-NEXT: vpaddq %xmm1, %xmm6, %xmm1
+; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm1, %xmm1
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm7, %xmm5, %xmm5
+; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm3, %xmm3
+; AVX1-FALLBACK-NEXT: vpor %xmm10, %xmm8, %xmm6
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm6, %xmm3, %xmm3
+; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm6, %xmm7
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm7, %xmm4, %xmm7
+; AVX1-FALLBACK-NEXT: vpaddq %xmm3, %xmm7, %xmm3
+; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm3, %xmm3
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm6, %xmm4, %xmm4
; AVX1-FALLBACK-NEXT: vpaddq %xmm2, %xmm3, %xmm2
-; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm6, %xmm0
+; AVX1-FALLBACK-NEXT: vpaddq %xmm2, %xmm4, %xmm2
; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm1, %xmm0
+; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm5, %xmm0
; AVX1-FALLBACK-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; AVX1-FALLBACK-NEXT: retq
;
; AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm2
; AVX2-NEXT: vblendvpd %ymm4, %ymm0, %ymm1, %ymm1
; AVX2-NEXT: vpsubq %ymm2, %ymm1, %ymm1
-; AVX2-NEXT: vpsrlq $1, %ymm1, %ymm1
-; AVX2-NEXT: vpsrlq $32, %ymm5, %ymm2
-; AVX2-NEXT: vpmuludq %ymm2, %ymm1, %ymm2
-; AVX2-NEXT: vpsrlq $32, %ymm1, %ymm3
-; AVX2-NEXT: vpmuludq %ymm5, %ymm3, %ymm3
-; AVX2-NEXT: vpaddq %ymm3, %ymm2, %ymm2
-; AVX2-NEXT: vpsllq $32, %ymm2, %ymm2
+; AVX2-NEXT: vpsrlq $1, %ymm1, %ymm2
+; AVX2-NEXT: vpsrlq $33, %ymm1, %ymm1
; AVX2-NEXT: vpmuludq %ymm5, %ymm1, %ymm1
-; AVX2-NEXT: vpaddq %ymm0, %ymm2, %ymm0
+; AVX2-NEXT: vpsrlq $32, %ymm5, %ymm3
+; AVX2-NEXT: vpmuludq %ymm3, %ymm2, %ymm3
+; AVX2-NEXT: vpaddq %ymm1, %ymm3, %ymm1
+; AVX2-NEXT: vpsllq $32, %ymm1, %ymm1
+; AVX2-NEXT: vpmuludq %ymm5, %ymm2, %ymm2
; AVX2-NEXT: vpaddq %ymm0, %ymm1, %ymm0
+; AVX2-NEXT: vpaddq %ymm0, %ymm2, %ymm0
; AVX2-NEXT: retq
;
; XOP-FALLBACK-LABEL: vec256_i64_unsigned_reg_reg:
; XOP-FALLBACK: # %bb.0:
; XOP-FALLBACK-NEXT: vextractf128 $1, %ymm1, %xmm2
; XOP-FALLBACK-NEXT: vextractf128 $1, %ymm0, %xmm3
-; XOP-FALLBACK-NEXT: vpcomgtuq %xmm2, %xmm3, %xmm4
+; XOP-FALLBACK-NEXT: vpcomgtuq %xmm2, %xmm3, %xmm9
; XOP-FALLBACK-NEXT: vpcomgtuq %xmm1, %xmm0, %xmm5
; XOP-FALLBACK-NEXT: vpcomltuq %xmm2, %xmm3, %xmm6
; XOP-FALLBACK-NEXT: vpcomltuq %xmm1, %xmm0, %xmm7
; XOP-FALLBACK-NEXT: vblendvpd %xmm5, %xmm0, %xmm1, %xmm1
; XOP-FALLBACK-NEXT: vpsubq %xmm7, %xmm1, %xmm1
; XOP-FALLBACK-NEXT: vblendvpd %xmm6, %xmm3, %xmm2, %xmm6
-; XOP-FALLBACK-NEXT: vblendvpd %xmm4, %xmm3, %xmm2, %xmm2
+; XOP-FALLBACK-NEXT: vblendvpd %xmm9, %xmm3, %xmm2, %xmm2
; XOP-FALLBACK-NEXT: vpsubq %xmm6, %xmm2, %xmm2
-; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm2, %xmm2
-; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm1
+; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm2, %xmm6
+; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm7
+; XOP-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1
; XOP-FALLBACK-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1]
; XOP-FALLBACK-NEXT: vpor %xmm5, %xmm8, %xmm5
-; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm7
-; XOP-FALLBACK-NEXT: vpmuludq %xmm7, %xmm1, %xmm7
-; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm1, %xmm6
-; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm6, %xmm6
-; XOP-FALLBACK-NEXT: vpaddq %xmm6, %xmm7, %xmm6
-; XOP-FALLBACK-NEXT: vpsllq $32, %xmm6, %xmm6
; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm1, %xmm1
-; XOP-FALLBACK-NEXT: vpor %xmm4, %xmm8, %xmm4
-; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm4, %xmm5
-; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm2, %xmm5
-; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm2, %xmm7
-; XOP-FALLBACK-NEXT: vpmuludq %xmm4, %xmm7, %xmm7
-; XOP-FALLBACK-NEXT: vpaddq %xmm7, %xmm5, %xmm5
-; XOP-FALLBACK-NEXT: vpsllq $32, %xmm5, %xmm5
-; XOP-FALLBACK-NEXT: vpmuludq %xmm4, %xmm2, %xmm2
-; XOP-FALLBACK-NEXT: vpaddq %xmm3, %xmm5, %xmm3
+; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm4
+; XOP-FALLBACK-NEXT: vpmuludq %xmm4, %xmm7, %xmm4
+; XOP-FALLBACK-NEXT: vpaddq %xmm1, %xmm4, %xmm1
+; XOP-FALLBACK-NEXT: vpsllq $32, %xmm1, %xmm1
+; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm7, %xmm4
+; XOP-FALLBACK-NEXT: vpsrlq $33, %xmm2, %xmm2
+; XOP-FALLBACK-NEXT: vpor %xmm8, %xmm9, %xmm5
+; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm2, %xmm2
+; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm7
+; XOP-FALLBACK-NEXT: vpmuludq %xmm7, %xmm6, %xmm7
+; XOP-FALLBACK-NEXT: vpaddq %xmm2, %xmm7, %xmm2
+; XOP-FALLBACK-NEXT: vpsllq $32, %xmm2, %xmm2
+; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm6, %xmm5
; XOP-FALLBACK-NEXT: vpaddq %xmm3, %xmm2, %xmm2
-; XOP-FALLBACK-NEXT: vpaddq %xmm0, %xmm6, %xmm0
+; XOP-FALLBACK-NEXT: vpaddq %xmm2, %xmm5, %xmm2
; XOP-FALLBACK-NEXT: vpaddq %xmm0, %xmm1, %xmm0
+; XOP-FALLBACK-NEXT: vpaddq %xmm0, %xmm4, %xmm0
; XOP-FALLBACK-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; XOP-FALLBACK-NEXT: retq
;
; XOPAVX1: # %bb.0:
; XOPAVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
-; XOPAVX1-NEXT: vpcomgtuq %xmm2, %xmm3, %xmm4
+; XOPAVX1-NEXT: vpcomgtuq %xmm2, %xmm3, %xmm9
; XOPAVX1-NEXT: vpcomgtuq %xmm1, %xmm0, %xmm5
; XOPAVX1-NEXT: vpcomltuq %xmm2, %xmm3, %xmm6
; XOPAVX1-NEXT: vpcomltuq %xmm1, %xmm0, %xmm7
; XOPAVX1-NEXT: vblendvpd %xmm5, %xmm0, %xmm1, %xmm1
; XOPAVX1-NEXT: vpsubq %xmm7, %xmm1, %xmm1
; XOPAVX1-NEXT: vblendvpd %xmm6, %xmm3, %xmm2, %xmm6
-; XOPAVX1-NEXT: vblendvpd %xmm4, %xmm3, %xmm2, %xmm2
+; XOPAVX1-NEXT: vblendvpd %xmm9, %xmm3, %xmm2, %xmm2
; XOPAVX1-NEXT: vpsubq %xmm6, %xmm2, %xmm2
-; XOPAVX1-NEXT: vpsrlq $1, %xmm2, %xmm2
-; XOPAVX1-NEXT: vpsrlq $1, %xmm1, %xmm1
+; XOPAVX1-NEXT: vpsrlq $1, %xmm2, %xmm6
+; XOPAVX1-NEXT: vpsrlq $1, %xmm1, %xmm7
+; XOPAVX1-NEXT: vpsrlq $33, %xmm1, %xmm1
; XOPAVX1-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1]
; XOPAVX1-NEXT: vpor %xmm5, %xmm8, %xmm5
-; XOPAVX1-NEXT: vpsrlq $32, %xmm5, %xmm7
-; XOPAVX1-NEXT: vpmuludq %xmm7, %xmm1, %xmm7
-; XOPAVX1-NEXT: vpsrlq $32, %xmm1, %xmm6
-; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm6, %xmm6
-; XOPAVX1-NEXT: vpaddq %xmm6, %xmm7, %xmm6
-; XOPAVX1-NEXT: vpsllq $32, %xmm6, %xmm6
; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm1, %xmm1
-; XOPAVX1-NEXT: vpor %xmm4, %xmm8, %xmm4
-; XOPAVX1-NEXT: vpsrlq $32, %xmm4, %xmm5
-; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm2, %xmm5
-; XOPAVX1-NEXT: vpsrlq $32, %xmm2, %xmm7
-; XOPAVX1-NEXT: vpmuludq %xmm4, %xmm7, %xmm7
-; XOPAVX1-NEXT: vpaddq %xmm7, %xmm5, %xmm5
-; XOPAVX1-NEXT: vpsllq $32, %xmm5, %xmm5
-; XOPAVX1-NEXT: vpmuludq %xmm4, %xmm2, %xmm2
-; XOPAVX1-NEXT: vpaddq %xmm3, %xmm5, %xmm3
+; XOPAVX1-NEXT: vpsrlq $32, %xmm5, %xmm4
+; XOPAVX1-NEXT: vpmuludq %xmm4, %xmm7, %xmm4
+; XOPAVX1-NEXT: vpaddq %xmm1, %xmm4, %xmm1
+; XOPAVX1-NEXT: vpsllq $32, %xmm1, %xmm1
+; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm7, %xmm4
+; XOPAVX1-NEXT: vpsrlq $33, %xmm2, %xmm2
+; XOPAVX1-NEXT: vpor %xmm8, %xmm9, %xmm5
+; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm2, %xmm2
+; XOPAVX1-NEXT: vpsrlq $32, %xmm5, %xmm7
+; XOPAVX1-NEXT: vpmuludq %xmm7, %xmm6, %xmm7
+; XOPAVX1-NEXT: vpaddq %xmm2, %xmm7, %xmm2
+; XOPAVX1-NEXT: vpsllq $32, %xmm2, %xmm2
+; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm6, %xmm5
; XOPAVX1-NEXT: vpaddq %xmm3, %xmm2, %xmm2
-; XOPAVX1-NEXT: vpaddq %xmm0, %xmm6, %xmm0
+; XOPAVX1-NEXT: vpaddq %xmm2, %xmm5, %xmm2
; XOPAVX1-NEXT: vpaddq %xmm0, %xmm1, %xmm0
+; XOPAVX1-NEXT: vpaddq %xmm0, %xmm4, %xmm0
; XOPAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; XOPAVX1-NEXT: retq
;
; AVX512F-NEXT: vpminuq %zmm1, %zmm0, %zmm2
; AVX512F-NEXT: vpmaxuq %zmm1, %zmm0, %zmm1
; AVX512F-NEXT: vpsubq %ymm2, %ymm1, %ymm1
-; AVX512F-NEXT: vpsrlq $1, %ymm1, %ymm1
-; AVX512F-NEXT: vpsrlq $32, %ymm1, %ymm2
-; AVX512F-NEXT: vpmuludq %ymm3, %ymm2, %ymm2
-; AVX512F-NEXT: vpsrlq $32, %ymm3, %ymm4
-; AVX512F-NEXT: vpmuludq %ymm4, %ymm1, %ymm4
-; AVX512F-NEXT: vpaddq %ymm2, %ymm4, %ymm2
-; AVX512F-NEXT: vpsllq $32, %ymm2, %ymm2
+; AVX512F-NEXT: vpsrlq $1, %ymm1, %ymm2
+; AVX512F-NEXT: vpsrlq $33, %ymm1, %ymm1
; AVX512F-NEXT: vpmuludq %ymm3, %ymm1, %ymm1
-; AVX512F-NEXT: vpaddq %ymm0, %ymm2, %ymm0
+; AVX512F-NEXT: vpsrlq $32, %ymm3, %ymm4
+; AVX512F-NEXT: vpmuludq %ymm4, %ymm2, %ymm4
+; AVX512F-NEXT: vpaddq %ymm1, %ymm4, %ymm1
+; AVX512F-NEXT: vpsllq $32, %ymm1, %ymm1
+; AVX512F-NEXT: vpmuludq %ymm3, %ymm2, %ymm2
; AVX512F-NEXT: vpaddq %ymm0, %ymm1, %ymm0
+; AVX512F-NEXT: vpaddq %ymm0, %ymm2, %ymm0
; AVX512F-NEXT: retq
;
; AVX512VL-LABEL: vec256_i64_unsigned_reg_reg:
; AVX512VL-NEXT: vpminuq %ymm1, %ymm0, %ymm2
; AVX512VL-NEXT: vpmaxuq %ymm1, %ymm0, %ymm1
; AVX512VL-NEXT: vpsubq %ymm2, %ymm1, %ymm1
-; AVX512VL-NEXT: vpsrlq $1, %ymm1, %ymm1
-; AVX512VL-NEXT: vpsrlq $32, %ymm3, %ymm2
-; AVX512VL-NEXT: vpmuludq %ymm2, %ymm1, %ymm2
-; AVX512VL-NEXT: vpsrlq $32, %ymm1, %ymm4
-; AVX512VL-NEXT: vpmuludq %ymm3, %ymm4, %ymm4
-; AVX512VL-NEXT: vpaddq %ymm4, %ymm2, %ymm2
-; AVX512VL-NEXT: vpsllq $32, %ymm2, %ymm2
+; AVX512VL-NEXT: vpsrlq $1, %ymm1, %ymm2
+; AVX512VL-NEXT: vpsrlq $33, %ymm1, %ymm1
; AVX512VL-NEXT: vpmuludq %ymm3, %ymm1, %ymm1
-; AVX512VL-NEXT: vpaddq %ymm0, %ymm2, %ymm0
+; AVX512VL-NEXT: vpsrlq $32, %ymm3, %ymm4
+; AVX512VL-NEXT: vpmuludq %ymm4, %ymm2, %ymm4
+; AVX512VL-NEXT: vpaddq %ymm1, %ymm4, %ymm1
+; AVX512VL-NEXT: vpsllq $32, %ymm1, %ymm1
+; AVX512VL-NEXT: vpmuludq %ymm3, %ymm2, %ymm2
; AVX512VL-NEXT: vpaddq %ymm0, %ymm1, %ymm0
+; AVX512VL-NEXT: vpaddq %ymm0, %ymm2, %ymm0
; AVX512VL-NEXT: retq
;
; AVX512BW-FALLBACK-LABEL: vec256_i64_unsigned_reg_reg:
; AVX512BW-FALLBACK-NEXT: vpminuq %zmm1, %zmm0, %zmm2
; AVX512BW-FALLBACK-NEXT: vpmaxuq %zmm1, %zmm0, %zmm1
; AVX512BW-FALLBACK-NEXT: vpsubq %ymm2, %ymm1, %ymm1
-; AVX512BW-FALLBACK-NEXT: vpsrlq $1, %ymm1, %ymm1
-; AVX512BW-FALLBACK-NEXT: vpsrlq $32, %ymm1, %ymm2
-; AVX512BW-FALLBACK-NEXT: vpmuludq %ymm3, %ymm2, %ymm2
-; AVX512BW-FALLBACK-NEXT: vpsrlq $32, %ymm3, %ymm4
-; AVX512BW-FALLBACK-NEXT: vpmuludq %ymm4, %ymm1, %ymm4
-; AVX512BW-FALLBACK-NEXT: vpaddq %ymm2, %ymm4, %ymm2
-; AVX512BW-FALLBACK-NEXT: vpsllq $32, %ymm2, %ymm2
+; AVX512BW-FALLBACK-NEXT: vpsrlq $1, %ymm1, %ymm2
+; AVX512BW-FALLBACK-NEXT: vpsrlq $33, %ymm1, %ymm1
; AVX512BW-FALLBACK-NEXT: vpmuludq %ymm3, %ymm1, %ymm1
-; AVX512BW-FALLBACK-NEXT: vpaddq %ymm0, %ymm2, %ymm0
+; AVX512BW-FALLBACK-NEXT: vpsrlq $32, %ymm3, %ymm4
+; AVX512BW-FALLBACK-NEXT: vpmuludq %ymm4, %ymm2, %ymm4
+; AVX512BW-FALLBACK-NEXT: vpaddq %ymm1, %ymm4, %ymm1
+; AVX512BW-FALLBACK-NEXT: vpsllq $32, %ymm1, %ymm1
+; AVX512BW-FALLBACK-NEXT: vpmuludq %ymm3, %ymm2, %ymm2
; AVX512BW-FALLBACK-NEXT: vpaddq %ymm0, %ymm1, %ymm0
+; AVX512BW-FALLBACK-NEXT: vpaddq %ymm0, %ymm2, %ymm0
; AVX512BW-FALLBACK-NEXT: retq
%t3 = icmp ugt <4 x i64> %a1, %a2
%t4 = select <4 x i1> %t3, <4 x i64> <i64 -1, i64 -1, i64 -1, i64 -1>, <4 x i64> <i64 1, i64 1, i64 1, i64 1>
; AVX1-FALLBACK-NEXT: vextractf128 $1, %ymm0, %xmm2
; AVX1-FALLBACK-NEXT: vmovdqa (%rdi), %xmm1
; AVX1-FALLBACK-NEXT: vmovdqa 16(%rdi), %xmm3
-; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm4
+; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm9
; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm5
; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm6
; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm7
; AVX1-FALLBACK-NEXT: vblendvpd %xmm5, %xmm1, %xmm0, %xmm0
; AVX1-FALLBACK-NEXT: vpsubq %xmm7, %xmm0, %xmm0
; AVX1-FALLBACK-NEXT: vblendvpd %xmm6, %xmm3, %xmm2, %xmm6
-; AVX1-FALLBACK-NEXT: vblendvpd %xmm4, %xmm3, %xmm2, %xmm2
+; AVX1-FALLBACK-NEXT: vblendvpd %xmm9, %xmm3, %xmm2, %xmm2
; AVX1-FALLBACK-NEXT: vpsubq %xmm6, %xmm2, %xmm2
-; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm2, %xmm2
-; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm0, %xmm0
+; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm2, %xmm6
+; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm0, %xmm7
+; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm0, %xmm0
; AVX1-FALLBACK-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1]
; AVX1-FALLBACK-NEXT: vpor %xmm5, %xmm8, %xmm5
-; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm7
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm7, %xmm0, %xmm7
-; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm0, %xmm6
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm6, %xmm6
-; AVX1-FALLBACK-NEXT: vpaddq %xmm6, %xmm7, %xmm6
-; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm6, %xmm6
; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm0, %xmm0
-; AVX1-FALLBACK-NEXT: vpor %xmm4, %xmm8, %xmm4
-; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm4, %xmm5
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm2, %xmm5
-; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm2, %xmm7
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm4, %xmm7, %xmm7
-; AVX1-FALLBACK-NEXT: vpaddq %xmm7, %xmm5, %xmm5
-; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm5, %xmm5
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm4, %xmm2, %xmm2
-; AVX1-FALLBACK-NEXT: vpaddq %xmm3, %xmm5, %xmm3
+; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm4
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm4, %xmm7, %xmm4
+; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm4, %xmm0
+; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm0, %xmm0
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm7, %xmm4
+; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm2, %xmm2
+; AVX1-FALLBACK-NEXT: vpor %xmm8, %xmm9, %xmm5
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm2, %xmm2
+; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm7
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm7, %xmm6, %xmm7
+; AVX1-FALLBACK-NEXT: vpaddq %xmm2, %xmm7, %xmm2
+; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm2, %xmm2
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm6, %xmm5
; AVX1-FALLBACK-NEXT: vpaddq %xmm3, %xmm2, %xmm2
-; AVX1-FALLBACK-NEXT: vpaddq %xmm1, %xmm6, %xmm1
+; AVX1-FALLBACK-NEXT: vpaddq %xmm2, %xmm5, %xmm2
; AVX1-FALLBACK-NEXT: vpaddq %xmm1, %xmm0, %xmm0
+; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm4, %xmm0
; AVX1-FALLBACK-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; AVX1-FALLBACK-NEXT: retq
;
; AVX2-NEXT: vblendvpd %ymm4, %ymm1, %ymm0, %ymm4
; AVX2-NEXT: vblendvpd %ymm2, %ymm1, %ymm0, %ymm0
; AVX2-NEXT: vpsubq %ymm4, %ymm0, %ymm0
-; AVX2-NEXT: vpsrlq $1, %ymm0, %ymm0
-; AVX2-NEXT: vpsrlq $32, %ymm3, %ymm2
-; AVX2-NEXT: vpmuludq %ymm2, %ymm0, %ymm2
-; AVX2-NEXT: vpsrlq $32, %ymm0, %ymm4
-; AVX2-NEXT: vpmuludq %ymm3, %ymm4, %ymm4
-; AVX2-NEXT: vpaddq %ymm4, %ymm2, %ymm2
-; AVX2-NEXT: vpsllq $32, %ymm2, %ymm2
+; AVX2-NEXT: vpsrlq $1, %ymm0, %ymm2
+; AVX2-NEXT: vpsrlq $33, %ymm0, %ymm0
; AVX2-NEXT: vpmuludq %ymm3, %ymm0, %ymm0
-; AVX2-NEXT: vpaddq %ymm1, %ymm2, %ymm1
+; AVX2-NEXT: vpsrlq $32, %ymm3, %ymm4
+; AVX2-NEXT: vpmuludq %ymm4, %ymm2, %ymm4
+; AVX2-NEXT: vpaddq %ymm0, %ymm4, %ymm0
+; AVX2-NEXT: vpsllq $32, %ymm0, %ymm0
+; AVX2-NEXT: vpmuludq %ymm3, %ymm2, %ymm2
; AVX2-NEXT: vpaddq %ymm1, %ymm0, %ymm0
+; AVX2-NEXT: vpaddq %ymm0, %ymm2, %ymm0
; AVX2-NEXT: retq
;
; XOP-FALLBACK-LABEL: vec256_i64_signed_mem_reg:
; XOP-FALLBACK-NEXT: vextractf128 $1, %ymm0, %xmm2
; XOP-FALLBACK-NEXT: vmovdqa (%rdi), %xmm1
; XOP-FALLBACK-NEXT: vmovdqa 16(%rdi), %xmm3
-; XOP-FALLBACK-NEXT: vpcomgtq %xmm2, %xmm3, %xmm4
+; XOP-FALLBACK-NEXT: vpcomgtq %xmm2, %xmm3, %xmm9
; XOP-FALLBACK-NEXT: vpcomgtq %xmm0, %xmm1, %xmm5
; XOP-FALLBACK-NEXT: vpcomltq %xmm2, %xmm3, %xmm6
; XOP-FALLBACK-NEXT: vpcomltq %xmm0, %xmm1, %xmm7
; XOP-FALLBACK-NEXT: vblendvpd %xmm5, %xmm1, %xmm0, %xmm0
; XOP-FALLBACK-NEXT: vpsubq %xmm7, %xmm0, %xmm0
; XOP-FALLBACK-NEXT: vblendvpd %xmm6, %xmm3, %xmm2, %xmm6
-; XOP-FALLBACK-NEXT: vblendvpd %xmm4, %xmm3, %xmm2, %xmm2
+; XOP-FALLBACK-NEXT: vblendvpd %xmm9, %xmm3, %xmm2, %xmm2
; XOP-FALLBACK-NEXT: vpsubq %xmm6, %xmm2, %xmm2
-; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm2, %xmm2
-; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm0, %xmm0
+; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm2, %xmm6
+; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm0, %xmm7
+; XOP-FALLBACK-NEXT: vpsrlq $33, %xmm0, %xmm0
; XOP-FALLBACK-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1]
; XOP-FALLBACK-NEXT: vpor %xmm5, %xmm8, %xmm5
-; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm7
-; XOP-FALLBACK-NEXT: vpmuludq %xmm7, %xmm0, %xmm7
-; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm0, %xmm6
-; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm6, %xmm6
-; XOP-FALLBACK-NEXT: vpaddq %xmm6, %xmm7, %xmm6
-; XOP-FALLBACK-NEXT: vpsllq $32, %xmm6, %xmm6
; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm0, %xmm0
-; XOP-FALLBACK-NEXT: vpor %xmm4, %xmm8, %xmm4
-; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm4, %xmm5
-; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm2, %xmm5
-; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm2, %xmm7
-; XOP-FALLBACK-NEXT: vpmuludq %xmm4, %xmm7, %xmm7
-; XOP-FALLBACK-NEXT: vpaddq %xmm7, %xmm5, %xmm5
-; XOP-FALLBACK-NEXT: vpsllq $32, %xmm5, %xmm5
-; XOP-FALLBACK-NEXT: vpmuludq %xmm4, %xmm2, %xmm2
-; XOP-FALLBACK-NEXT: vpaddq %xmm3, %xmm5, %xmm3
+; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm4
+; XOP-FALLBACK-NEXT: vpmuludq %xmm4, %xmm7, %xmm4
+; XOP-FALLBACK-NEXT: vpaddq %xmm0, %xmm4, %xmm0
+; XOP-FALLBACK-NEXT: vpsllq $32, %xmm0, %xmm0
+; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm7, %xmm4
+; XOP-FALLBACK-NEXT: vpsrlq $33, %xmm2, %xmm2
+; XOP-FALLBACK-NEXT: vpor %xmm8, %xmm9, %xmm5
+; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm2, %xmm2
+; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm7
+; XOP-FALLBACK-NEXT: vpmuludq %xmm7, %xmm6, %xmm7
+; XOP-FALLBACK-NEXT: vpaddq %xmm2, %xmm7, %xmm2
+; XOP-FALLBACK-NEXT: vpsllq $32, %xmm2, %xmm2
+; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm6, %xmm5
; XOP-FALLBACK-NEXT: vpaddq %xmm3, %xmm2, %xmm2
-; XOP-FALLBACK-NEXT: vpaddq %xmm1, %xmm6, %xmm1
+; XOP-FALLBACK-NEXT: vpaddq %xmm2, %xmm5, %xmm2
; XOP-FALLBACK-NEXT: vpaddq %xmm1, %xmm0, %xmm0
+; XOP-FALLBACK-NEXT: vpaddq %xmm0, %xmm4, %xmm0
; XOP-FALLBACK-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; XOP-FALLBACK-NEXT: retq
;
; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
; XOPAVX1-NEXT: vmovdqa (%rdi), %xmm1
; XOPAVX1-NEXT: vmovdqa 16(%rdi), %xmm3
-; XOPAVX1-NEXT: vpcomgtq %xmm2, %xmm3, %xmm4
+; XOPAVX1-NEXT: vpcomgtq %xmm2, %xmm3, %xmm9
; XOPAVX1-NEXT: vpcomgtq %xmm0, %xmm1, %xmm5
; XOPAVX1-NEXT: vpcomltq %xmm2, %xmm3, %xmm6
; XOPAVX1-NEXT: vpcomltq %xmm0, %xmm1, %xmm7
; XOPAVX1-NEXT: vblendvpd %xmm5, %xmm1, %xmm0, %xmm0
; XOPAVX1-NEXT: vpsubq %xmm7, %xmm0, %xmm0
; XOPAVX1-NEXT: vblendvpd %xmm6, %xmm3, %xmm2, %xmm6
-; XOPAVX1-NEXT: vblendvpd %xmm4, %xmm3, %xmm2, %xmm2
+; XOPAVX1-NEXT: vblendvpd %xmm9, %xmm3, %xmm2, %xmm2
; XOPAVX1-NEXT: vpsubq %xmm6, %xmm2, %xmm2
-; XOPAVX1-NEXT: vpsrlq $1, %xmm2, %xmm2
-; XOPAVX1-NEXT: vpsrlq $1, %xmm0, %xmm0
+; XOPAVX1-NEXT: vpsrlq $1, %xmm2, %xmm6
+; XOPAVX1-NEXT: vpsrlq $1, %xmm0, %xmm7
+; XOPAVX1-NEXT: vpsrlq $33, %xmm0, %xmm0
; XOPAVX1-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1]
; XOPAVX1-NEXT: vpor %xmm5, %xmm8, %xmm5
-; XOPAVX1-NEXT: vpsrlq $32, %xmm5, %xmm7
-; XOPAVX1-NEXT: vpmuludq %xmm7, %xmm0, %xmm7
-; XOPAVX1-NEXT: vpsrlq $32, %xmm0, %xmm6
-; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm6, %xmm6
-; XOPAVX1-NEXT: vpaddq %xmm6, %xmm7, %xmm6
-; XOPAVX1-NEXT: vpsllq $32, %xmm6, %xmm6
; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm0, %xmm0
-; XOPAVX1-NEXT: vpor %xmm4, %xmm8, %xmm4
-; XOPAVX1-NEXT: vpsrlq $32, %xmm4, %xmm5
-; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm2, %xmm5
-; XOPAVX1-NEXT: vpsrlq $32, %xmm2, %xmm7
-; XOPAVX1-NEXT: vpmuludq %xmm4, %xmm7, %xmm7
-; XOPAVX1-NEXT: vpaddq %xmm7, %xmm5, %xmm5
-; XOPAVX1-NEXT: vpsllq $32, %xmm5, %xmm5
-; XOPAVX1-NEXT: vpmuludq %xmm4, %xmm2, %xmm2
-; XOPAVX1-NEXT: vpaddq %xmm3, %xmm5, %xmm3
+; XOPAVX1-NEXT: vpsrlq $32, %xmm5, %xmm4
+; XOPAVX1-NEXT: vpmuludq %xmm4, %xmm7, %xmm4
+; XOPAVX1-NEXT: vpaddq %xmm0, %xmm4, %xmm0
+; XOPAVX1-NEXT: vpsllq $32, %xmm0, %xmm0
+; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm7, %xmm4
+; XOPAVX1-NEXT: vpsrlq $33, %xmm2, %xmm2
+; XOPAVX1-NEXT: vpor %xmm8, %xmm9, %xmm5
+; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm2, %xmm2
+; XOPAVX1-NEXT: vpsrlq $32, %xmm5, %xmm7
+; XOPAVX1-NEXT: vpmuludq %xmm7, %xmm6, %xmm7
+; XOPAVX1-NEXT: vpaddq %xmm2, %xmm7, %xmm2
+; XOPAVX1-NEXT: vpsllq $32, %xmm2, %xmm2
+; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm6, %xmm5
; XOPAVX1-NEXT: vpaddq %xmm3, %xmm2, %xmm2
-; XOPAVX1-NEXT: vpaddq %xmm1, %xmm6, %xmm1
+; XOPAVX1-NEXT: vpaddq %xmm2, %xmm5, %xmm2
; XOPAVX1-NEXT: vpaddq %xmm1, %xmm0, %xmm0
+; XOPAVX1-NEXT: vpaddq %xmm0, %xmm4, %xmm0
; XOPAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; XOPAVX1-NEXT: retq
;
; AVX512F-NEXT: vpminsq %zmm0, %zmm1, %zmm2
; AVX512F-NEXT: vpmaxsq %zmm0, %zmm1, %zmm0
; AVX512F-NEXT: vpsubq %ymm2, %ymm0, %ymm0
-; AVX512F-NEXT: vpsrlq $1, %ymm0, %ymm0
-; AVX512F-NEXT: vpsrlq $32, %ymm0, %ymm2
-; AVX512F-NEXT: vpmuludq %ymm3, %ymm2, %ymm2
-; AVX512F-NEXT: vpsrlq $32, %ymm3, %ymm4
-; AVX512F-NEXT: vpmuludq %ymm4, %ymm0, %ymm4
-; AVX512F-NEXT: vpaddq %ymm2, %ymm4, %ymm2
-; AVX512F-NEXT: vpsllq $32, %ymm2, %ymm2
+; AVX512F-NEXT: vpsrlq $1, %ymm0, %ymm2
+; AVX512F-NEXT: vpsrlq $33, %ymm0, %ymm0
; AVX512F-NEXT: vpmuludq %ymm3, %ymm0, %ymm0
-; AVX512F-NEXT: vpaddq %ymm1, %ymm2, %ymm1
+; AVX512F-NEXT: vpsrlq $32, %ymm3, %ymm4
+; AVX512F-NEXT: vpmuludq %ymm4, %ymm2, %ymm4
+; AVX512F-NEXT: vpaddq %ymm0, %ymm4, %ymm0
+; AVX512F-NEXT: vpsllq $32, %ymm0, %ymm0
+; AVX512F-NEXT: vpmuludq %ymm3, %ymm2, %ymm2
; AVX512F-NEXT: vpaddq %ymm1, %ymm0, %ymm0
+; AVX512F-NEXT: vpaddq %ymm0, %ymm2, %ymm0
; AVX512F-NEXT: retq
;
; AVX512VL-LABEL: vec256_i64_signed_mem_reg:
; AVX512VL-NEXT: vpminsq %ymm0, %ymm1, %ymm2
; AVX512VL-NEXT: vpmaxsq %ymm0, %ymm1, %ymm0
; AVX512VL-NEXT: vpsubq %ymm2, %ymm0, %ymm0
-; AVX512VL-NEXT: vpsrlq $1, %ymm0, %ymm0
-; AVX512VL-NEXT: vpsrlq $32, %ymm3, %ymm2
-; AVX512VL-NEXT: vpmuludq %ymm2, %ymm0, %ymm2
-; AVX512VL-NEXT: vpsrlq $32, %ymm0, %ymm4
-; AVX512VL-NEXT: vpmuludq %ymm3, %ymm4, %ymm4
-; AVX512VL-NEXT: vpaddq %ymm4, %ymm2, %ymm2
-; AVX512VL-NEXT: vpsllq $32, %ymm2, %ymm2
+; AVX512VL-NEXT: vpsrlq $1, %ymm0, %ymm2
+; AVX512VL-NEXT: vpsrlq $33, %ymm0, %ymm0
; AVX512VL-NEXT: vpmuludq %ymm3, %ymm0, %ymm0
-; AVX512VL-NEXT: vpaddq %ymm1, %ymm2, %ymm1
+; AVX512VL-NEXT: vpsrlq $32, %ymm3, %ymm4
+; AVX512VL-NEXT: vpmuludq %ymm4, %ymm2, %ymm4
+; AVX512VL-NEXT: vpaddq %ymm0, %ymm4, %ymm0
+; AVX512VL-NEXT: vpsllq $32, %ymm0, %ymm0
+; AVX512VL-NEXT: vpmuludq %ymm3, %ymm2, %ymm2
; AVX512VL-NEXT: vpaddq %ymm1, %ymm0, %ymm0
+; AVX512VL-NEXT: vpaddq %ymm0, %ymm2, %ymm0
; AVX512VL-NEXT: retq
;
; AVX512BW-FALLBACK-LABEL: vec256_i64_signed_mem_reg:
; AVX512BW-FALLBACK-NEXT: vpminsq %zmm0, %zmm1, %zmm2
; AVX512BW-FALLBACK-NEXT: vpmaxsq %zmm0, %zmm1, %zmm0
; AVX512BW-FALLBACK-NEXT: vpsubq %ymm2, %ymm0, %ymm0
-; AVX512BW-FALLBACK-NEXT: vpsrlq $1, %ymm0, %ymm0
-; AVX512BW-FALLBACK-NEXT: vpsrlq $32, %ymm0, %ymm2
-; AVX512BW-FALLBACK-NEXT: vpmuludq %ymm3, %ymm2, %ymm2
-; AVX512BW-FALLBACK-NEXT: vpsrlq $32, %ymm3, %ymm4
-; AVX512BW-FALLBACK-NEXT: vpmuludq %ymm4, %ymm0, %ymm4
-; AVX512BW-FALLBACK-NEXT: vpaddq %ymm2, %ymm4, %ymm2
-; AVX512BW-FALLBACK-NEXT: vpsllq $32, %ymm2, %ymm2
+; AVX512BW-FALLBACK-NEXT: vpsrlq $1, %ymm0, %ymm2
+; AVX512BW-FALLBACK-NEXT: vpsrlq $33, %ymm0, %ymm0
; AVX512BW-FALLBACK-NEXT: vpmuludq %ymm3, %ymm0, %ymm0
-; AVX512BW-FALLBACK-NEXT: vpaddq %ymm1, %ymm2, %ymm1
+; AVX512BW-FALLBACK-NEXT: vpsrlq $32, %ymm3, %ymm4
+; AVX512BW-FALLBACK-NEXT: vpmuludq %ymm4, %ymm2, %ymm4
+; AVX512BW-FALLBACK-NEXT: vpaddq %ymm0, %ymm4, %ymm0
+; AVX512BW-FALLBACK-NEXT: vpsllq $32, %ymm0, %ymm0
+; AVX512BW-FALLBACK-NEXT: vpmuludq %ymm3, %ymm2, %ymm2
; AVX512BW-FALLBACK-NEXT: vpaddq %ymm1, %ymm0, %ymm0
+; AVX512BW-FALLBACK-NEXT: vpaddq %ymm0, %ymm2, %ymm0
; AVX512BW-FALLBACK-NEXT: retq
%a1 = load <4 x i64>, <4 x i64>* %a1_addr
%t3 = icmp sgt <4 x i64> %a1, %a2 ; signed
; AVX1-FALLBACK-NEXT: vmovdqa (%rdi), %xmm1
; AVX1-FALLBACK-NEXT: vmovdqa 16(%rdi), %xmm2
; AVX1-FALLBACK-NEXT: vextractf128 $1, %ymm0, %xmm3
-; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm4
+; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm9
; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm5
; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm6
; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm7
; AVX1-FALLBACK-NEXT: vblendvpd %xmm5, %xmm0, %xmm1, %xmm1
; AVX1-FALLBACK-NEXT: vpsubq %xmm7, %xmm1, %xmm1
; AVX1-FALLBACK-NEXT: vblendvpd %xmm6, %xmm3, %xmm2, %xmm6
-; AVX1-FALLBACK-NEXT: vblendvpd %xmm4, %xmm3, %xmm2, %xmm2
+; AVX1-FALLBACK-NEXT: vblendvpd %xmm9, %xmm3, %xmm2, %xmm2
; AVX1-FALLBACK-NEXT: vpsubq %xmm6, %xmm2, %xmm2
-; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm2, %xmm2
-; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm1
+; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm2, %xmm6
+; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm7
+; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1
; AVX1-FALLBACK-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1]
; AVX1-FALLBACK-NEXT: vpor %xmm5, %xmm8, %xmm5
-; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm7
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm7, %xmm1, %xmm7
-; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm1, %xmm6
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm6, %xmm6
-; AVX1-FALLBACK-NEXT: vpaddq %xmm6, %xmm7, %xmm6
-; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm6, %xmm6
; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm1, %xmm1
-; AVX1-FALLBACK-NEXT: vpor %xmm4, %xmm8, %xmm4
-; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm4, %xmm5
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm2, %xmm5
-; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm2, %xmm7
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm4, %xmm7, %xmm7
-; AVX1-FALLBACK-NEXT: vpaddq %xmm7, %xmm5, %xmm5
-; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm5, %xmm5
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm4, %xmm2, %xmm2
-; AVX1-FALLBACK-NEXT: vpaddq %xmm3, %xmm5, %xmm3
+; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm4
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm4, %xmm7, %xmm4
+; AVX1-FALLBACK-NEXT: vpaddq %xmm1, %xmm4, %xmm1
+; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm1, %xmm1
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm7, %xmm4
+; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm2, %xmm2
+; AVX1-FALLBACK-NEXT: vpor %xmm8, %xmm9, %xmm5
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm2, %xmm2
+; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm7
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm7, %xmm6, %xmm7
+; AVX1-FALLBACK-NEXT: vpaddq %xmm2, %xmm7, %xmm2
+; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm2, %xmm2
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm6, %xmm5
; AVX1-FALLBACK-NEXT: vpaddq %xmm3, %xmm2, %xmm2
-; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm6, %xmm0
+; AVX1-FALLBACK-NEXT: vpaddq %xmm2, %xmm5, %xmm2
; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm1, %xmm0
+; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm4, %xmm0
; AVX1-FALLBACK-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; AVX1-FALLBACK-NEXT: retq
;
; AVX2-NEXT: vblendvpd %ymm4, %ymm0, %ymm1, %ymm4
; AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm1
; AVX2-NEXT: vpsubq %ymm4, %ymm1, %ymm1
-; AVX2-NEXT: vpsrlq $1, %ymm1, %ymm1
-; AVX2-NEXT: vpsrlq $32, %ymm3, %ymm2
-; AVX2-NEXT: vpmuludq %ymm2, %ymm1, %ymm2
-; AVX2-NEXT: vpsrlq $32, %ymm1, %ymm4
-; AVX2-NEXT: vpmuludq %ymm3, %ymm4, %ymm4
-; AVX2-NEXT: vpaddq %ymm4, %ymm2, %ymm2
-; AVX2-NEXT: vpsllq $32, %ymm2, %ymm2
+; AVX2-NEXT: vpsrlq $1, %ymm1, %ymm2
+; AVX2-NEXT: vpsrlq $33, %ymm1, %ymm1
; AVX2-NEXT: vpmuludq %ymm3, %ymm1, %ymm1
-; AVX2-NEXT: vpaddq %ymm0, %ymm2, %ymm0
+; AVX2-NEXT: vpsrlq $32, %ymm3, %ymm4
+; AVX2-NEXT: vpmuludq %ymm4, %ymm2, %ymm4
+; AVX2-NEXT: vpaddq %ymm1, %ymm4, %ymm1
+; AVX2-NEXT: vpsllq $32, %ymm1, %ymm1
+; AVX2-NEXT: vpmuludq %ymm3, %ymm2, %ymm2
; AVX2-NEXT: vpaddq %ymm0, %ymm1, %ymm0
+; AVX2-NEXT: vpaddq %ymm0, %ymm2, %ymm0
; AVX2-NEXT: retq
;
; XOP-FALLBACK-LABEL: vec256_i64_signed_reg_mem:
; XOP-FALLBACK-NEXT: vmovdqa (%rdi), %xmm1
; XOP-FALLBACK-NEXT: vmovdqa 16(%rdi), %xmm2
; XOP-FALLBACK-NEXT: vextractf128 $1, %ymm0, %xmm3
-; XOP-FALLBACK-NEXT: vpcomgtq %xmm2, %xmm3, %xmm4
+; XOP-FALLBACK-NEXT: vpcomgtq %xmm2, %xmm3, %xmm9
; XOP-FALLBACK-NEXT: vpcomgtq %xmm1, %xmm0, %xmm5
; XOP-FALLBACK-NEXT: vpcomltq %xmm2, %xmm3, %xmm6
; XOP-FALLBACK-NEXT: vpcomltq %xmm1, %xmm0, %xmm7
; XOP-FALLBACK-NEXT: vblendvpd %xmm5, %xmm0, %xmm1, %xmm1
; XOP-FALLBACK-NEXT: vpsubq %xmm7, %xmm1, %xmm1
; XOP-FALLBACK-NEXT: vblendvpd %xmm6, %xmm3, %xmm2, %xmm6
-; XOP-FALLBACK-NEXT: vblendvpd %xmm4, %xmm3, %xmm2, %xmm2
+; XOP-FALLBACK-NEXT: vblendvpd %xmm9, %xmm3, %xmm2, %xmm2
; XOP-FALLBACK-NEXT: vpsubq %xmm6, %xmm2, %xmm2
-; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm2, %xmm2
-; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm1
+; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm2, %xmm6
+; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm7
+; XOP-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1
; XOP-FALLBACK-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1]
; XOP-FALLBACK-NEXT: vpor %xmm5, %xmm8, %xmm5
-; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm7
-; XOP-FALLBACK-NEXT: vpmuludq %xmm7, %xmm1, %xmm7
-; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm1, %xmm6
-; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm6, %xmm6
-; XOP-FALLBACK-NEXT: vpaddq %xmm6, %xmm7, %xmm6
-; XOP-FALLBACK-NEXT: vpsllq $32, %xmm6, %xmm6
; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm1, %xmm1
-; XOP-FALLBACK-NEXT: vpor %xmm4, %xmm8, %xmm4
-; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm4, %xmm5
-; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm2, %xmm5
-; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm2, %xmm7
-; XOP-FALLBACK-NEXT: vpmuludq %xmm4, %xmm7, %xmm7
-; XOP-FALLBACK-NEXT: vpaddq %xmm7, %xmm5, %xmm5
-; XOP-FALLBACK-NEXT: vpsllq $32, %xmm5, %xmm5
-; XOP-FALLBACK-NEXT: vpmuludq %xmm4, %xmm2, %xmm2
-; XOP-FALLBACK-NEXT: vpaddq %xmm3, %xmm5, %xmm3
+; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm4
+; XOP-FALLBACK-NEXT: vpmuludq %xmm4, %xmm7, %xmm4
+; XOP-FALLBACK-NEXT: vpaddq %xmm1, %xmm4, %xmm1
+; XOP-FALLBACK-NEXT: vpsllq $32, %xmm1, %xmm1
+; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm7, %xmm4
+; XOP-FALLBACK-NEXT: vpsrlq $33, %xmm2, %xmm2
+; XOP-FALLBACK-NEXT: vpor %xmm8, %xmm9, %xmm5
+; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm2, %xmm2
+; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm7
+; XOP-FALLBACK-NEXT: vpmuludq %xmm7, %xmm6, %xmm7
+; XOP-FALLBACK-NEXT: vpaddq %xmm2, %xmm7, %xmm2
+; XOP-FALLBACK-NEXT: vpsllq $32, %xmm2, %xmm2
+; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm6, %xmm5
; XOP-FALLBACK-NEXT: vpaddq %xmm3, %xmm2, %xmm2
-; XOP-FALLBACK-NEXT: vpaddq %xmm0, %xmm6, %xmm0
+; XOP-FALLBACK-NEXT: vpaddq %xmm2, %xmm5, %xmm2
; XOP-FALLBACK-NEXT: vpaddq %xmm0, %xmm1, %xmm0
+; XOP-FALLBACK-NEXT: vpaddq %xmm0, %xmm4, %xmm0
; XOP-FALLBACK-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; XOP-FALLBACK-NEXT: retq
;
; XOPAVX1-NEXT: vmovdqa (%rdi), %xmm1
; XOPAVX1-NEXT: vmovdqa 16(%rdi), %xmm2
; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm3
-; XOPAVX1-NEXT: vpcomgtq %xmm2, %xmm3, %xmm4
+; XOPAVX1-NEXT: vpcomgtq %xmm2, %xmm3, %xmm9
; XOPAVX1-NEXT: vpcomgtq %xmm1, %xmm0, %xmm5
; XOPAVX1-NEXT: vpcomltq %xmm2, %xmm3, %xmm6
; XOPAVX1-NEXT: vpcomltq %xmm1, %xmm0, %xmm7
; XOPAVX1-NEXT: vblendvpd %xmm5, %xmm0, %xmm1, %xmm1
; XOPAVX1-NEXT: vpsubq %xmm7, %xmm1, %xmm1
; XOPAVX1-NEXT: vblendvpd %xmm6, %xmm3, %xmm2, %xmm6
-; XOPAVX1-NEXT: vblendvpd %xmm4, %xmm3, %xmm2, %xmm2
+; XOPAVX1-NEXT: vblendvpd %xmm9, %xmm3, %xmm2, %xmm2
; XOPAVX1-NEXT: vpsubq %xmm6, %xmm2, %xmm2
-; XOPAVX1-NEXT: vpsrlq $1, %xmm2, %xmm2
-; XOPAVX1-NEXT: vpsrlq $1, %xmm1, %xmm1
+; XOPAVX1-NEXT: vpsrlq $1, %xmm2, %xmm6
+; XOPAVX1-NEXT: vpsrlq $1, %xmm1, %xmm7
+; XOPAVX1-NEXT: vpsrlq $33, %xmm1, %xmm1
; XOPAVX1-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1]
; XOPAVX1-NEXT: vpor %xmm5, %xmm8, %xmm5
-; XOPAVX1-NEXT: vpsrlq $32, %xmm5, %xmm7
-; XOPAVX1-NEXT: vpmuludq %xmm7, %xmm1, %xmm7
-; XOPAVX1-NEXT: vpsrlq $32, %xmm1, %xmm6
-; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm6, %xmm6
-; XOPAVX1-NEXT: vpaddq %xmm6, %xmm7, %xmm6
-; XOPAVX1-NEXT: vpsllq $32, %xmm6, %xmm6
; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm1, %xmm1
-; XOPAVX1-NEXT: vpor %xmm4, %xmm8, %xmm4
-; XOPAVX1-NEXT: vpsrlq $32, %xmm4, %xmm5
-; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm2, %xmm5
-; XOPAVX1-NEXT: vpsrlq $32, %xmm2, %xmm7
-; XOPAVX1-NEXT: vpmuludq %xmm4, %xmm7, %xmm7
-; XOPAVX1-NEXT: vpaddq %xmm7, %xmm5, %xmm5
-; XOPAVX1-NEXT: vpsllq $32, %xmm5, %xmm5
-; XOPAVX1-NEXT: vpmuludq %xmm4, %xmm2, %xmm2
-; XOPAVX1-NEXT: vpaddq %xmm3, %xmm5, %xmm3
+; XOPAVX1-NEXT: vpsrlq $32, %xmm5, %xmm4
+; XOPAVX1-NEXT: vpmuludq %xmm4, %xmm7, %xmm4
+; XOPAVX1-NEXT: vpaddq %xmm1, %xmm4, %xmm1
+; XOPAVX1-NEXT: vpsllq $32, %xmm1, %xmm1
+; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm7, %xmm4
+; XOPAVX1-NEXT: vpsrlq $33, %xmm2, %xmm2
+; XOPAVX1-NEXT: vpor %xmm8, %xmm9, %xmm5
+; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm2, %xmm2
+; XOPAVX1-NEXT: vpsrlq $32, %xmm5, %xmm7
+; XOPAVX1-NEXT: vpmuludq %xmm7, %xmm6, %xmm7
+; XOPAVX1-NEXT: vpaddq %xmm2, %xmm7, %xmm2
+; XOPAVX1-NEXT: vpsllq $32, %xmm2, %xmm2
+; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm6, %xmm5
; XOPAVX1-NEXT: vpaddq %xmm3, %xmm2, %xmm2
-; XOPAVX1-NEXT: vpaddq %xmm0, %xmm6, %xmm0
+; XOPAVX1-NEXT: vpaddq %xmm2, %xmm5, %xmm2
; XOPAVX1-NEXT: vpaddq %xmm0, %xmm1, %xmm0
+; XOPAVX1-NEXT: vpaddq %xmm0, %xmm4, %xmm0
; XOPAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; XOPAVX1-NEXT: retq
;
; AVX512F-NEXT: vpminsq %zmm1, %zmm0, %zmm2
; AVX512F-NEXT: vpmaxsq %zmm1, %zmm0, %zmm1
; AVX512F-NEXT: vpsubq %ymm2, %ymm1, %ymm1
-; AVX512F-NEXT: vpsrlq $1, %ymm1, %ymm1
-; AVX512F-NEXT: vpsrlq $32, %ymm1, %ymm2
-; AVX512F-NEXT: vpmuludq %ymm3, %ymm2, %ymm2
-; AVX512F-NEXT: vpsrlq $32, %ymm3, %ymm4
-; AVX512F-NEXT: vpmuludq %ymm4, %ymm1, %ymm4
-; AVX512F-NEXT: vpaddq %ymm2, %ymm4, %ymm2
-; AVX512F-NEXT: vpsllq $32, %ymm2, %ymm2
+; AVX512F-NEXT: vpsrlq $1, %ymm1, %ymm2
+; AVX512F-NEXT: vpsrlq $33, %ymm1, %ymm1
; AVX512F-NEXT: vpmuludq %ymm3, %ymm1, %ymm1
-; AVX512F-NEXT: vpaddq %ymm0, %ymm2, %ymm0
+; AVX512F-NEXT: vpsrlq $32, %ymm3, %ymm4
+; AVX512F-NEXT: vpmuludq %ymm4, %ymm2, %ymm4
+; AVX512F-NEXT: vpaddq %ymm1, %ymm4, %ymm1
+; AVX512F-NEXT: vpsllq $32, %ymm1, %ymm1
+; AVX512F-NEXT: vpmuludq %ymm3, %ymm2, %ymm2
; AVX512F-NEXT: vpaddq %ymm0, %ymm1, %ymm0
+; AVX512F-NEXT: vpaddq %ymm0, %ymm2, %ymm0
; AVX512F-NEXT: retq
;
; AVX512VL-LABEL: vec256_i64_signed_reg_mem:
; AVX512VL-NEXT: vpminsq %ymm1, %ymm0, %ymm2
; AVX512VL-NEXT: vpmaxsq %ymm1, %ymm0, %ymm1
; AVX512VL-NEXT: vpsubq %ymm2, %ymm1, %ymm1
-; AVX512VL-NEXT: vpsrlq $1, %ymm1, %ymm1
-; AVX512VL-NEXT: vpsrlq $32, %ymm3, %ymm2
-; AVX512VL-NEXT: vpmuludq %ymm2, %ymm1, %ymm2
-; AVX512VL-NEXT: vpsrlq $32, %ymm1, %ymm4
-; AVX512VL-NEXT: vpmuludq %ymm3, %ymm4, %ymm4
-; AVX512VL-NEXT: vpaddq %ymm4, %ymm2, %ymm2
-; AVX512VL-NEXT: vpsllq $32, %ymm2, %ymm2
+; AVX512VL-NEXT: vpsrlq $1, %ymm1, %ymm2
+; AVX512VL-NEXT: vpsrlq $33, %ymm1, %ymm1
; AVX512VL-NEXT: vpmuludq %ymm3, %ymm1, %ymm1
-; AVX512VL-NEXT: vpaddq %ymm0, %ymm2, %ymm0
+; AVX512VL-NEXT: vpsrlq $32, %ymm3, %ymm4
+; AVX512VL-NEXT: vpmuludq %ymm4, %ymm2, %ymm4
+; AVX512VL-NEXT: vpaddq %ymm1, %ymm4, %ymm1
+; AVX512VL-NEXT: vpsllq $32, %ymm1, %ymm1
+; AVX512VL-NEXT: vpmuludq %ymm3, %ymm2, %ymm2
; AVX512VL-NEXT: vpaddq %ymm0, %ymm1, %ymm0
+; AVX512VL-NEXT: vpaddq %ymm0, %ymm2, %ymm0
; AVX512VL-NEXT: retq
;
; AVX512BW-FALLBACK-LABEL: vec256_i64_signed_reg_mem:
; AVX512BW-FALLBACK-NEXT: vpminsq %zmm1, %zmm0, %zmm2
; AVX512BW-FALLBACK-NEXT: vpmaxsq %zmm1, %zmm0, %zmm1
; AVX512BW-FALLBACK-NEXT: vpsubq %ymm2, %ymm1, %ymm1
-; AVX512BW-FALLBACK-NEXT: vpsrlq $1, %ymm1, %ymm1
-; AVX512BW-FALLBACK-NEXT: vpsrlq $32, %ymm1, %ymm2
-; AVX512BW-FALLBACK-NEXT: vpmuludq %ymm3, %ymm2, %ymm2
-; AVX512BW-FALLBACK-NEXT: vpsrlq $32, %ymm3, %ymm4
-; AVX512BW-FALLBACK-NEXT: vpmuludq %ymm4, %ymm1, %ymm4
-; AVX512BW-FALLBACK-NEXT: vpaddq %ymm2, %ymm4, %ymm2
-; AVX512BW-FALLBACK-NEXT: vpsllq $32, %ymm2, %ymm2
+; AVX512BW-FALLBACK-NEXT: vpsrlq $1, %ymm1, %ymm2
+; AVX512BW-FALLBACK-NEXT: vpsrlq $33, %ymm1, %ymm1
; AVX512BW-FALLBACK-NEXT: vpmuludq %ymm3, %ymm1, %ymm1
-; AVX512BW-FALLBACK-NEXT: vpaddq %ymm0, %ymm2, %ymm0
+; AVX512BW-FALLBACK-NEXT: vpsrlq $32, %ymm3, %ymm4
+; AVX512BW-FALLBACK-NEXT: vpmuludq %ymm4, %ymm2, %ymm4
+; AVX512BW-FALLBACK-NEXT: vpaddq %ymm1, %ymm4, %ymm1
+; AVX512BW-FALLBACK-NEXT: vpsllq $32, %ymm1, %ymm1
+; AVX512BW-FALLBACK-NEXT: vpmuludq %ymm3, %ymm2, %ymm2
; AVX512BW-FALLBACK-NEXT: vpaddq %ymm0, %ymm1, %ymm0
+; AVX512BW-FALLBACK-NEXT: vpaddq %ymm0, %ymm2, %ymm0
; AVX512BW-FALLBACK-NEXT: retq
%a2 = load <4 x i64>, <4 x i64>* %a2_addr
%t3 = icmp sgt <4 x i64> %a1, %a2 ; signed
; AVX1-FALLBACK-NEXT: vmovdqa 16(%rsi), %xmm2
; AVX1-FALLBACK-NEXT: vmovdqa (%rdi), %xmm0
; AVX1-FALLBACK-NEXT: vmovdqa 16(%rdi), %xmm3
-; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm4
+; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm2, %xmm3, %xmm9
; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm1, %xmm0, %xmm5
; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm3, %xmm2, %xmm6
; AVX1-FALLBACK-NEXT: vpcmpgtq %xmm0, %xmm1, %xmm7
; AVX1-FALLBACK-NEXT: vblendvpd %xmm5, %xmm0, %xmm1, %xmm1
; AVX1-FALLBACK-NEXT: vpsubq %xmm7, %xmm1, %xmm1
; AVX1-FALLBACK-NEXT: vblendvpd %xmm6, %xmm3, %xmm2, %xmm6
-; AVX1-FALLBACK-NEXT: vblendvpd %xmm4, %xmm3, %xmm2, %xmm2
+; AVX1-FALLBACK-NEXT: vblendvpd %xmm9, %xmm3, %xmm2, %xmm2
; AVX1-FALLBACK-NEXT: vpsubq %xmm6, %xmm2, %xmm2
-; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm2, %xmm2
-; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm1
+; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm2, %xmm6
+; AVX1-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm7
+; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1
; AVX1-FALLBACK-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1]
; AVX1-FALLBACK-NEXT: vpor %xmm5, %xmm8, %xmm5
-; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm7
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm7, %xmm1, %xmm7
-; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm1, %xmm6
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm6, %xmm6
-; AVX1-FALLBACK-NEXT: vpaddq %xmm6, %xmm7, %xmm6
-; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm6, %xmm6
; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm1, %xmm1
-; AVX1-FALLBACK-NEXT: vpor %xmm4, %xmm8, %xmm4
-; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm4, %xmm5
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm2, %xmm5
-; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm2, %xmm7
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm4, %xmm7, %xmm7
-; AVX1-FALLBACK-NEXT: vpaddq %xmm7, %xmm5, %xmm5
-; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm5, %xmm5
-; AVX1-FALLBACK-NEXT: vpmuludq %xmm4, %xmm2, %xmm2
-; AVX1-FALLBACK-NEXT: vpaddq %xmm3, %xmm5, %xmm3
+; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm4
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm4, %xmm7, %xmm4
+; AVX1-FALLBACK-NEXT: vpaddq %xmm1, %xmm4, %xmm1
+; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm1, %xmm1
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm7, %xmm4
+; AVX1-FALLBACK-NEXT: vpsrlq $33, %xmm2, %xmm2
+; AVX1-FALLBACK-NEXT: vpor %xmm8, %xmm9, %xmm5
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm2, %xmm2
+; AVX1-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm7
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm7, %xmm6, %xmm7
+; AVX1-FALLBACK-NEXT: vpaddq %xmm2, %xmm7, %xmm2
+; AVX1-FALLBACK-NEXT: vpsllq $32, %xmm2, %xmm2
+; AVX1-FALLBACK-NEXT: vpmuludq %xmm5, %xmm6, %xmm5
; AVX1-FALLBACK-NEXT: vpaddq %xmm3, %xmm2, %xmm2
-; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm6, %xmm0
+; AVX1-FALLBACK-NEXT: vpaddq %xmm2, %xmm5, %xmm2
; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm1, %xmm0
+; AVX1-FALLBACK-NEXT: vpaddq %xmm0, %xmm4, %xmm0
; AVX1-FALLBACK-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; AVX1-FALLBACK-NEXT: retq
;
; AVX2-NEXT: vblendvpd %ymm4, %ymm0, %ymm1, %ymm4
; AVX2-NEXT: vblendvpd %ymm2, %ymm0, %ymm1, %ymm1
; AVX2-NEXT: vpsubq %ymm4, %ymm1, %ymm1
-; AVX2-NEXT: vpsrlq $1, %ymm1, %ymm1
-; AVX2-NEXT: vpsrlq $32, %ymm3, %ymm2
-; AVX2-NEXT: vpmuludq %ymm2, %ymm1, %ymm2
-; AVX2-NEXT: vpsrlq $32, %ymm1, %ymm4
-; AVX2-NEXT: vpmuludq %ymm3, %ymm4, %ymm4
-; AVX2-NEXT: vpaddq %ymm4, %ymm2, %ymm2
-; AVX2-NEXT: vpsllq $32, %ymm2, %ymm2
+; AVX2-NEXT: vpsrlq $1, %ymm1, %ymm2
+; AVX2-NEXT: vpsrlq $33, %ymm1, %ymm1
; AVX2-NEXT: vpmuludq %ymm3, %ymm1, %ymm1
-; AVX2-NEXT: vpaddq %ymm0, %ymm2, %ymm0
+; AVX2-NEXT: vpsrlq $32, %ymm3, %ymm4
+; AVX2-NEXT: vpmuludq %ymm4, %ymm2, %ymm4
+; AVX2-NEXT: vpaddq %ymm1, %ymm4, %ymm1
+; AVX2-NEXT: vpsllq $32, %ymm1, %ymm1
+; AVX2-NEXT: vpmuludq %ymm3, %ymm2, %ymm2
; AVX2-NEXT: vpaddq %ymm0, %ymm1, %ymm0
+; AVX2-NEXT: vpaddq %ymm0, %ymm2, %ymm0
; AVX2-NEXT: retq
;
; XOP-FALLBACK-LABEL: vec256_i64_signed_mem_mem:
; XOP-FALLBACK-NEXT: vmovdqa 16(%rsi), %xmm2
; XOP-FALLBACK-NEXT: vmovdqa (%rdi), %xmm0
; XOP-FALLBACK-NEXT: vmovdqa 16(%rdi), %xmm3
-; XOP-FALLBACK-NEXT: vpcomgtq %xmm2, %xmm3, %xmm4
+; XOP-FALLBACK-NEXT: vpcomgtq %xmm2, %xmm3, %xmm9
; XOP-FALLBACK-NEXT: vpcomgtq %xmm1, %xmm0, %xmm5
; XOP-FALLBACK-NEXT: vpcomltq %xmm2, %xmm3, %xmm6
; XOP-FALLBACK-NEXT: vpcomltq %xmm1, %xmm0, %xmm7
; XOP-FALLBACK-NEXT: vblendvpd %xmm5, %xmm0, %xmm1, %xmm1
; XOP-FALLBACK-NEXT: vpsubq %xmm7, %xmm1, %xmm1
; XOP-FALLBACK-NEXT: vblendvpd %xmm6, %xmm3, %xmm2, %xmm6
-; XOP-FALLBACK-NEXT: vblendvpd %xmm4, %xmm3, %xmm2, %xmm2
+; XOP-FALLBACK-NEXT: vblendvpd %xmm9, %xmm3, %xmm2, %xmm2
; XOP-FALLBACK-NEXT: vpsubq %xmm6, %xmm2, %xmm2
-; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm2, %xmm2
-; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm1
+; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm2, %xmm6
+; XOP-FALLBACK-NEXT: vpsrlq $1, %xmm1, %xmm7
+; XOP-FALLBACK-NEXT: vpsrlq $33, %xmm1, %xmm1
; XOP-FALLBACK-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1]
; XOP-FALLBACK-NEXT: vpor %xmm5, %xmm8, %xmm5
-; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm7
-; XOP-FALLBACK-NEXT: vpmuludq %xmm7, %xmm1, %xmm7
-; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm1, %xmm6
-; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm6, %xmm6
-; XOP-FALLBACK-NEXT: vpaddq %xmm6, %xmm7, %xmm6
-; XOP-FALLBACK-NEXT: vpsllq $32, %xmm6, %xmm6
; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm1, %xmm1
-; XOP-FALLBACK-NEXT: vpor %xmm4, %xmm8, %xmm4
-; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm4, %xmm5
-; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm2, %xmm5
-; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm2, %xmm7
-; XOP-FALLBACK-NEXT: vpmuludq %xmm4, %xmm7, %xmm7
-; XOP-FALLBACK-NEXT: vpaddq %xmm7, %xmm5, %xmm5
-; XOP-FALLBACK-NEXT: vpsllq $32, %xmm5, %xmm5
-; XOP-FALLBACK-NEXT: vpmuludq %xmm4, %xmm2, %xmm2
-; XOP-FALLBACK-NEXT: vpaddq %xmm3, %xmm5, %xmm3
+; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm4
+; XOP-FALLBACK-NEXT: vpmuludq %xmm4, %xmm7, %xmm4
+; XOP-FALLBACK-NEXT: vpaddq %xmm1, %xmm4, %xmm1
+; XOP-FALLBACK-NEXT: vpsllq $32, %xmm1, %xmm1
+; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm7, %xmm4
+; XOP-FALLBACK-NEXT: vpsrlq $33, %xmm2, %xmm2
+; XOP-FALLBACK-NEXT: vpor %xmm8, %xmm9, %xmm5
+; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm2, %xmm2
+; XOP-FALLBACK-NEXT: vpsrlq $32, %xmm5, %xmm7
+; XOP-FALLBACK-NEXT: vpmuludq %xmm7, %xmm6, %xmm7
+; XOP-FALLBACK-NEXT: vpaddq %xmm2, %xmm7, %xmm2
+; XOP-FALLBACK-NEXT: vpsllq $32, %xmm2, %xmm2
+; XOP-FALLBACK-NEXT: vpmuludq %xmm5, %xmm6, %xmm5
; XOP-FALLBACK-NEXT: vpaddq %xmm3, %xmm2, %xmm2
-; XOP-FALLBACK-NEXT: vpaddq %xmm0, %xmm6, %xmm0
+; XOP-FALLBACK-NEXT: vpaddq %xmm2, %xmm5, %xmm2
; XOP-FALLBACK-NEXT: vpaddq %xmm0, %xmm1, %xmm0
+; XOP-FALLBACK-NEXT: vpaddq %xmm0, %xmm4, %xmm0
; XOP-FALLBACK-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; XOP-FALLBACK-NEXT: retq
;
; XOPAVX1-NEXT: vmovdqa 16(%rsi), %xmm2
; XOPAVX1-NEXT: vmovdqa (%rdi), %xmm0
; XOPAVX1-NEXT: vmovdqa 16(%rdi), %xmm3
-; XOPAVX1-NEXT: vpcomgtq %xmm2, %xmm3, %xmm4
+; XOPAVX1-NEXT: vpcomgtq %xmm2, %xmm3, %xmm9
; XOPAVX1-NEXT: vpcomgtq %xmm1, %xmm0, %xmm5
; XOPAVX1-NEXT: vpcomltq %xmm2, %xmm3, %xmm6
; XOPAVX1-NEXT: vpcomltq %xmm1, %xmm0, %xmm7
; XOPAVX1-NEXT: vblendvpd %xmm5, %xmm0, %xmm1, %xmm1
; XOPAVX1-NEXT: vpsubq %xmm7, %xmm1, %xmm1
; XOPAVX1-NEXT: vblendvpd %xmm6, %xmm3, %xmm2, %xmm6
-; XOPAVX1-NEXT: vblendvpd %xmm4, %xmm3, %xmm2, %xmm2
+; XOPAVX1-NEXT: vblendvpd %xmm9, %xmm3, %xmm2, %xmm2
; XOPAVX1-NEXT: vpsubq %xmm6, %xmm2, %xmm2
-; XOPAVX1-NEXT: vpsrlq $1, %xmm2, %xmm2
-; XOPAVX1-NEXT: vpsrlq $1, %xmm1, %xmm1
+; XOPAVX1-NEXT: vpsrlq $1, %xmm2, %xmm6
+; XOPAVX1-NEXT: vpsrlq $1, %xmm1, %xmm7
+; XOPAVX1-NEXT: vpsrlq $33, %xmm1, %xmm1
; XOPAVX1-NEXT: vmovdqa {{.*#+}} xmm8 = [1,1]
; XOPAVX1-NEXT: vpor %xmm5, %xmm8, %xmm5
-; XOPAVX1-NEXT: vpsrlq $32, %xmm5, %xmm7
-; XOPAVX1-NEXT: vpmuludq %xmm7, %xmm1, %xmm7
-; XOPAVX1-NEXT: vpsrlq $32, %xmm1, %xmm6
-; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm6, %xmm6
-; XOPAVX1-NEXT: vpaddq %xmm6, %xmm7, %xmm6
-; XOPAVX1-NEXT: vpsllq $32, %xmm6, %xmm6
; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm1, %xmm1
-; XOPAVX1-NEXT: vpor %xmm4, %xmm8, %xmm4
-; XOPAVX1-NEXT: vpsrlq $32, %xmm4, %xmm5
-; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm2, %xmm5
-; XOPAVX1-NEXT: vpsrlq $32, %xmm2, %xmm7
-; XOPAVX1-NEXT: vpmuludq %xmm4, %xmm7, %xmm7
-; XOPAVX1-NEXT: vpaddq %xmm7, %xmm5, %xmm5
-; XOPAVX1-NEXT: vpsllq $32, %xmm5, %xmm5
-; XOPAVX1-NEXT: vpmuludq %xmm4, %xmm2, %xmm2
-; XOPAVX1-NEXT: vpaddq %xmm3, %xmm5, %xmm3
+; XOPAVX1-NEXT: vpsrlq $32, %xmm5, %xmm4
+; XOPAVX1-NEXT: vpmuludq %xmm4, %xmm7, %xmm4
+; XOPAVX1-NEXT: vpaddq %xmm1, %xmm4, %xmm1
+; XOPAVX1-NEXT: vpsllq $32, %xmm1, %xmm1
+; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm7, %xmm4
+; XOPAVX1-NEXT: vpsrlq $33, %xmm2, %xmm2
+; XOPAVX1-NEXT: vpor %xmm8, %xmm9, %xmm5
+; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm2, %xmm2
+; XOPAVX1-NEXT: vpsrlq $32, %xmm5, %xmm7
+; XOPAVX1-NEXT: vpmuludq %xmm7, %xmm6, %xmm7
+; XOPAVX1-NEXT: vpaddq %xmm2, %xmm7, %xmm2
+; XOPAVX1-NEXT: vpsllq $32, %xmm2, %xmm2
+; XOPAVX1-NEXT: vpmuludq %xmm5, %xmm6, %xmm5
; XOPAVX1-NEXT: vpaddq %xmm3, %xmm2, %xmm2
-; XOPAVX1-NEXT: vpaddq %xmm0, %xmm6, %xmm0
+; XOPAVX1-NEXT: vpaddq %xmm2, %xmm5, %xmm2
; XOPAVX1-NEXT: vpaddq %xmm0, %xmm1, %xmm0
+; XOPAVX1-NEXT: vpaddq %xmm0, %xmm4, %xmm0
; XOPAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
; XOPAVX1-NEXT: retq
;
; AVX512F-NEXT: vpminsq %zmm1, %zmm0, %zmm2
; AVX512F-NEXT: vpmaxsq %zmm1, %zmm0, %zmm1
; AVX512F-NEXT: vpsubq %ymm2, %ymm1, %ymm1
-; AVX512F-NEXT: vpsrlq $1, %ymm1, %ymm1
-; AVX512F-NEXT: vpsrlq $32, %ymm1, %ymm2
-; AVX512F-NEXT: vpmuludq %ymm3, %ymm2, %ymm2
-; AVX512F-NEXT: vpsrlq $32, %ymm3, %ymm4
-; AVX512F-NEXT: vpmuludq %ymm4, %ymm1, %ymm4
-; AVX512F-NEXT: vpaddq %ymm2, %ymm4, %ymm2
-; AVX512F-NEXT: vpsllq $32, %ymm2, %ymm2
+; AVX512F-NEXT: vpsrlq $1, %ymm1, %ymm2
+; AVX512F-NEXT: vpsrlq $33, %ymm1, %ymm1
; AVX512F-NEXT: vpmuludq %ymm3, %ymm1, %ymm1
-; AVX512F-NEXT: vpaddq %ymm0, %ymm2, %ymm0
+; AVX512F-NEXT: vpsrlq $32, %ymm3, %ymm4
+; AVX512F-NEXT: vpmuludq %ymm4, %ymm2, %ymm4
+; AVX512F-NEXT: vpaddq %ymm1, %ymm4, %ymm1
+; AVX512F-NEXT: vpsllq $32, %ymm1, %ymm1
+; AVX512F-NEXT: vpmuludq %ymm3, %ymm2, %ymm2
; AVX512F-NEXT: vpaddq %ymm0, %ymm1, %ymm0
+; AVX512F-NEXT: vpaddq %ymm0, %ymm2, %ymm0
; AVX512F-NEXT: retq
;
; AVX512VL-LABEL: vec256_i64_signed_mem_mem:
; AVX512VL-NEXT: vpminsq %ymm1, %ymm0, %ymm2
; AVX512VL-NEXT: vpmaxsq %ymm1, %ymm0, %ymm1
; AVX512VL-NEXT: vpsubq %ymm2, %ymm1, %ymm1
-; AVX512VL-NEXT: vpsrlq $1, %ymm1, %ymm1
-; AVX512VL-NEXT: vpsrlq $32, %ymm3, %ymm2
-; AVX512VL-NEXT: vpmuludq %ymm2, %ymm1, %ymm2
-; AVX512VL-NEXT: vpsrlq $32, %ymm1, %ymm4
-; AVX512VL-NEXT: vpmuludq %ymm3, %ymm4, %ymm4
-; AVX512VL-NEXT: vpaddq %ymm4, %ymm2, %ymm2
-; AVX512VL-NEXT: vpsllq $32, %ymm2, %ymm2
+; AVX512VL-NEXT: vpsrlq $1, %ymm1, %ymm2
+; AVX512VL-NEXT: vpsrlq $33, %ymm1, %ymm1
; AVX512VL-NEXT: vpmuludq %ymm3, %ymm1, %ymm1
-; AVX512VL-NEXT: vpaddq %ymm0, %ymm2, %ymm0
+; AVX512VL-NEXT: vpsrlq $32, %ymm3, %ymm4
+; AVX512VL-NEXT: vpmuludq %ymm4, %ymm2, %ymm4
+; AVX512VL-NEXT: vpaddq %ymm1, %ymm4, %ymm1
+; AVX512VL-NEXT: vpsllq $32, %ymm1, %ymm1
+; AVX512VL-NEXT: vpmuludq %ymm3, %ymm2, %ymm2
; AVX512VL-NEXT: vpaddq %ymm0, %ymm1, %ymm0
+; AVX512VL-NEXT: vpaddq %ymm0, %ymm2, %ymm0
; AVX512VL-NEXT: retq
;
; AVX512BW-FALLBACK-LABEL: vec256_i64_signed_mem_mem:
; AVX512BW-FALLBACK-NEXT: vpminsq %zmm1, %zmm0, %zmm2
; AVX512BW-FALLBACK-NEXT: vpmaxsq %zmm1, %zmm0, %zmm1
; AVX512BW-FALLBACK-NEXT: vpsubq %ymm2, %ymm1, %ymm1
-; AVX512BW-FALLBACK-NEXT: vpsrlq $1, %ymm1, %ymm1
-; AVX512BW-FALLBACK-NEXT: vpsrlq $32, %ymm1, %ymm2
-; AVX512BW-FALLBACK-NEXT: vpmuludq %ymm3, %ymm2, %ymm2
-; AVX512BW-FALLBACK-NEXT: vpsrlq $32, %ymm3, %ymm4
-; AVX512BW-FALLBACK-NEXT: vpmuludq %ymm4, %ymm1, %ymm4
-; AVX512BW-FALLBACK-NEXT: vpaddq %ymm2, %ymm4, %ymm2
-; AVX512BW-FALLBACK-NEXT: vpsllq $32, %ymm2, %ymm2
+; AVX512BW-FALLBACK-NEXT: vpsrlq $1, %ymm1, %ymm2
+; AVX512BW-FALLBACK-NEXT: vpsrlq $33, %ymm1, %ymm1
; AVX512BW-FALLBACK-NEXT: vpmuludq %ymm3, %ymm1, %ymm1
-; AVX512BW-FALLBACK-NEXT: vpaddq %ymm0, %ymm2, %ymm0
+; AVX512BW-FALLBACK-NEXT: vpsrlq $32, %ymm3, %ymm4
+; AVX512BW-FALLBACK-NEXT: vpmuludq %ymm4, %ymm2, %ymm4
+; AVX512BW-FALLBACK-NEXT: vpaddq %ymm1, %ymm4, %ymm1
+; AVX512BW-FALLBACK-NEXT: vpsllq $32, %ymm1, %ymm1
+; AVX512BW-FALLBACK-NEXT: vpmuludq %ymm3, %ymm2, %ymm2
; AVX512BW-FALLBACK-NEXT: vpaddq %ymm0, %ymm1, %ymm0
+; AVX512BW-FALLBACK-NEXT: vpaddq %ymm0, %ymm2, %ymm0
; AVX512BW-FALLBACK-NEXT: retq
%a1 = load <4 x i64>, <4 x i64>* %a1_addr
%a2 = load <4 x i64>, <4 x i64>* %a2_addr