bugfix for cgemm_kernel_8x2_sandy.S
authorwernsaar <wernsaar@googlemail.com>
Sat, 28 Jun 2014 08:01:56 +0000 (10:01 +0200)
committerwernsaar <wernsaar@googlemail.com>
Sat, 28 Jun 2014 08:01:56 +0000 (10:01 +0200)
kernel/x86_64/cgemm_kernel_8x2_sandy.S
make.inc

index ccd04e7..564b733 100644 (file)
@@ -812,16 +812,16 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 #ifdef WINDOWS_ABI\r
        movq    %rdi,    48(%rsp)\r
        movq    %rsi,    56(%rsp)\r
-       movups  %xmm6,   64(%rsp)\r
-       movups  %xmm7,   80(%rsp)\r
-       movups  %xmm8,   96(%rsp)\r
-       movups  %xmm9,  112(%rsp)\r
-       movups  %xmm10, 128(%rsp)\r
-       movups  %xmm11, 144(%rsp)\r
-       movups  %xmm12, 160(%rsp)\r
-       movups  %xmm13, 176(%rsp)\r
-       movups  %xmm14, 192(%rsp)\r
-       movups  %xmm15, 208(%rsp)\r
+       vmovups %xmm6,   64(%rsp)\r
+       vmovups %xmm7,   80(%rsp)\r
+       vmovups %xmm8,   96(%rsp)\r
+       vmovups %xmm9,  112(%rsp)\r
+       vmovups %xmm10, 128(%rsp)\r
+       vmovups %xmm11, 144(%rsp)\r
+       vmovups %xmm12, 160(%rsp)\r
+       vmovups %xmm13, 176(%rsp)\r
+       vmovups %xmm14, 192(%rsp)\r
+       vmovups %xmm15, 208(%rsp)\r
 \r
        movq    ARG1,      OLD_M\r
        movq    ARG2,      OLD_N\r
@@ -834,6 +834,7 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
        movsd   OLD_OFFSET, %xmm12\r
 #endif\r
        vmovaps %xmm3, %xmm0\r
+       vmovsd   OLD_ALPHA_I, %xmm1\r
 \r
 #else\r
        movq    STACKSIZE +  8(%rsp), LDC\r
@@ -2249,6 +2250,8 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 \r
 \r
 .L999:\r
+       vzeroupper\r
+\r
        movq            SP, %rsp\r
        movq       (%rsp), %rbx\r
        movq      8(%rsp), %rbp\r
@@ -2260,16 +2263,16 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 #ifdef WINDOWS_ABI\r
        movq     48(%rsp), %rdi\r
        movq     56(%rsp), %rsi\r
-       movups   64(%rsp), %xmm6\r
-       movups   80(%rsp), %xmm7\r
-       movups   96(%rsp), %xmm8\r
-       movups  112(%rsp), %xmm9\r
-       movups  128(%rsp), %xmm10\r
-       movups  144(%rsp), %xmm11\r
-       movups  160(%rsp), %xmm12\r
-       movups  176(%rsp), %xmm13\r
-       movups  192(%rsp), %xmm14\r
-       movups  208(%rsp), %xmm15\r
+       vmovups  64(%rsp), %xmm6\r
+       vmovups  80(%rsp), %xmm7\r
+       vmovups  96(%rsp), %xmm8\r
+       vmovups 112(%rsp), %xmm9\r
+       vmovups 128(%rsp), %xmm10\r
+       vmovups 144(%rsp), %xmm11\r
+       vmovups 160(%rsp), %xmm12\r
+       vmovups 176(%rsp), %xmm13\r
+       vmovups 192(%rsp), %xmm14\r
+       vmovups 208(%rsp), %xmm15\r
 #endif\r
 \r
        addq    $ STACKSIZE, %rsp\r
index affae3a..da430b7 100644 (file)
--- a/make.inc
+++ b/make.inc
@@ -1,7 +1,7 @@
 SHELL = /bin/sh
 PLAT = _LINUX
 DRVOPTS  = $(OPTS)
-LOADER   = $(FORTRAN) -pthread
+LOADER   = $(FORTRAN)
 ARCHFLAGS= -ru
 #RANLIB   = ranlib