#endif
movsd -32 * SIZE(Y), %xmm8
- pshufd $0x39, %xmm4, %xmm5
+ pshufd $0x29, %xmm4, %xmm5
mulps %xmm8, %xmm5
addps %xmm5, %xmm3
xorps %xmm5, %xmm5
movhlps %xmm4, %xmm5
- mulps -32 * SIZE(Y), %xmm5
+ movlps -32 * SIZE(Y), %xmm4
+ mulps %xmm4, %xmm5
addps %xmm5, %xmm0
addq $2 * SIZE, X
movsd -32 * SIZE(Y), %xmm8
movss %xmm5, %xmm4
- shufps $0x93, %xmm5, %xmm4
+ shufps $0x93, %xmm4, %xmm4
mulps %xmm8, %xmm4
addps %xmm4, %xmm3
movsd -32 * SIZE(X), %xmm4
pshufd $0xb1, %xmm4, %xmm12
- shufps $0x39, %xmm8, %xmm8
+ shufps $0x59, %xmm8, %xmm8
mulps %xmm8, %xmm4
addps %xmm4, %xmm0
mulps %xmm8, %xmm12
movss %xmm9, %xmm8
pshufd $0xb1, %xmm4, %xmm12
- shufps $0x93, %xmm8, %xmm8
+ shufps $0x03, %xmm8, %xmm8
mulps %xmm8, %xmm4
addps %xmm4, %xmm0
mulps %xmm8, %xmm12
movsd -32 * SIZE(Y), %xmm4
pshufd $0xb1, %xmm4, %xmm12
- shufps $0x39, %xmm8, %xmm8
+ shufps $0xa9, %xmm8, %xmm8
mulps %xmm8, %xmm4
addps %xmm4, %xmm0
mulps %xmm8, %xmm12
movss %xmm9, %xmm8
pshufd $0xb1, %xmm4, %xmm12
- shufps $0x93, %xmm8, %xmm8
+ shufps $0x03, %xmm8, %xmm8
mulps %xmm8, %xmm4
addps %xmm4, %xmm0
mulps %xmm8, %xmm12