s390x: allow clang to emit fused multiply-adds (replicates gcc's default behavior)
authorMarius Hillenbrand <mhillen@linux.ibm.com>
Tue, 1 Sep 2020 13:09:32 +0000 (15:09 +0200)
committerMarius Hillenbrand <mhillen@linux.ibm.com>
Wed, 2 Sep 2020 11:49:31 +0000 (13:49 +0200)
commit095f4e6964ba150b1293747d842a60294836be45
tree479748cb37af08e1a9285be5fd084d125955709b
parent87e5bbd88795d09f4bec0691d33f91e8109eb424
s390x: allow clang to emit fused multiply-adds (replicates gcc's default behavior)

gcc's default setting for floating-point expression contraction is
"fast", which allows the compiler to emit fused multiply adds instead of
separate multiplies and adds (amongst others). Fused multiply-adds,
which assembly kernels typically apply, also bring a significant
performance advantage to the C implementation for matrix-matrix
multiplication on s390x. To enable that performance advantage for builds
with clang, add -ffp-contract=fast to the compiler options.

Signed-off-by: Marius Hillenbrand <mhillen@linux.ibm.com>
Makefile.zarch