repaired trmm bug in dgemm_kernel_8x2_bulldozer.S
authorwernsaar <wernsaar@googlemail.com>
Sat, 3 Aug 2013 07:35:39 +0000 (09:35 +0200)
committerwernsaar <wernsaar@googlemail.com>
Sat, 3 Aug 2013 07:35:39 +0000 (09:35 +0200)
kernel/x86_64/dgemm_kernel_8x2_bulldozer.S

index dc32172..45f5c0c 100644 (file)
 \r
 /*******************************************************************************************/\r
 \r
-\r
-\r
+#if !defined(TRMMKERNEL)\r
 \r
 \r
        PROLOGUE\r
        movq    OLD_B,     B\r
        movq    OLD_C,     C\r
        movq    OLD_LDC,   LDC\r
-#ifdef TRMMKERNEL\r
-       movsd   OLD_OFFSET, %xmm12\r
-#endif\r
+\r
        vmovaps %xmm3, %xmm0\r
 \r
 #else\r
        movq    STACKSIZE +  8(%rsp), LDC\r
-#ifdef TRMMKERNEL\r
-       movsd   STACKSIZE + 16(%rsp), %xmm12\r
-#endif\r
 \r
 #endif\r
 \r
 \r
        \r
 \r
-#ifdef TRMMKERNEL\r
-       vmovsd  %xmm12, OFFSET\r
-       vmovsd  %xmm12, KK\r
-#ifndef LEFT\r
-       negq    KK\r
-#endif \r
-#endif\r
 \r
        movq    Ndiv6,  J\r
        cmpq    $0, J\r
        leaq    (C, LDC, 2), C           \r
        leaq    (C, LDC, 1), C          // c += 3 * ldc\r
 \r
-#if defined(TRMMKERNEL) && defined(LEFT)\r
-        movq    OFFSET, %rax\r
-        movq    %rax, KK\r
-#endif\r
        \r
        movq    A, AO                   // aoffset = a\r
        addq    $16 * SIZE, AO\r
        ALIGN_4\r
 \r
 .L6_11:\r
-#if !defined(TRMMKERNEL) || \\r
-        (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \\r
-        (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))\r
-        leaq    BUFFER1, BO             // first buffer to BO\r
-        addq    $6 * SIZE, BO\r
-#else\r
-        movq    KK, %rax\r
         leaq    BUFFER1, BO             // first buffer to BO\r
         addq    $6 * SIZE, BO\r
-        movq    %rax, BI                        //  Index for BO\r
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values\r
-        leaq    (BO, BI, 8), BO\r
-        salq    $3, %rax                        // rax = rax * 8 ; number of values\r
-        leaq    (AO, %rax, 8), AO\r
-#endif\r
-\r
 \r
        vzeroall\r
 \r
-#ifndef TRMMKERNEL\r
-        movq    K, %rax\r
-#elif (defined(LEFT) && !defined(TRANSA)) || (!defined(LEFT) && defined(TRANSA))\r
         movq    K, %rax\r
-        subq    KK, %rax\r
-        movq    %rax, KKK\r
-#else\r
-        movq    KK, %rax\r
-#ifdef LEFT\r
-        addq    $8, %rax       // number of values in AO\r
-#else\r
-        addq    $3, %rax       // number of values in BO\r
-#endif\r
-        movq    %rax, KKK\r
-#endif\r
 \r
        andq    $-8, %rax                       //  K = K - ( K % 8 )\r
        je      .L6_16\r
        ALIGN_4\r
 \r
 .L6_16:\r
-#ifndef TRMMKERNEL\r
         movq    K, %rax\r
-#else\r
-        movq    KKK, %rax\r
-#endif\r
 \r
        andq    $7, %rax                # if (k & 1)\r
        je .L6_19\r
 \r
        vmovddup        ALPHA, %xmm0\r
 \r
-#ifndef TRMMKERNEL\r
 \r
        vfmaddpd         (CO1),%xmm0, %xmm4,%xmm4\r
        vfmaddpd 2 * SIZE(CO1),%xmm0, %xmm7,%xmm7\r
        vfmaddpd 4 * SIZE(CO1, LDC, 2),%xmm0, %xmm12,%xmm12\r
        vfmaddpd 6 * SIZE(CO1, LDC, 2),%xmm0, %xmm15,%xmm15\r
 \r
-#else\r
-       vmulpd  %xmm0, %xmm4,%xmm4\r
-       vmulpd  %xmm0, %xmm7,%xmm7\r
-       vmulpd  %xmm0, %xmm10,%xmm10\r
-       vmulpd  %xmm0, %xmm13,%xmm13\r
-\r
-       vmulpd  %xmm0, %xmm5,%xmm5\r
-       vmulpd  %xmm0, %xmm8,%xmm8\r
-       vmulpd  %xmm0, %xmm11,%xmm11\r
-       vmulpd  %xmm0, %xmm14,%xmm14\r
-\r
-       vmulpd  %xmm0, %xmm6,%xmm6\r
-       vmulpd  %xmm0, %xmm9,%xmm9\r
-       vmulpd  %xmm0, %xmm12,%xmm12\r
-       vmulpd  %xmm0, %xmm15,%xmm15\r
-\r
-#endif\r
-\r
        vmovups %xmm4 ,         (CO1)\r
        vmovups %xmm7 , 2 * SIZE(CO1)\r
        vmovups %xmm10, 4 * SIZE(CO1)\r
        vmovups %xmm12, 4 * SIZE(CO1, LDC, 2)\r
        vmovups %xmm15, 6 * SIZE(CO1, LDC, 2)\r
 \r
-#if (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \\r
-    (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))\r
-        movq    K, %rax\r
-        subq    KKK, %rax\r
-        movq    %rax, BI                        //  Index for BO\r
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values\r
-        leaq    (BO, BI, 8), BO\r
-        salq    $3, %rax                        // rax = rax * 8 ; number of values\r
-        leaq    (AO, %rax, 8), AO\r
-#endif\r
-\r
-\r
-#if defined(TRMMKERNEL) && defined(LEFT)\r
-        addq    $8, KK\r
-#endif\r
 \r
        addq    $8 * SIZE, CO1          # coffset += 8\r
        decq    I                       # i --\r
        ALIGN_4\r
 \r
 .L6_21:\r
-#if !defined(TRMMKERNEL) || \\r
-        (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \\r
-        (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))\r
-        leaq    BUFFER1, BO             // first buffer to BO\r
-        addq    $6 * SIZE, BO\r
-#else\r
-        movq    KK, %rax\r
         leaq    BUFFER1, BO             // first buffer to BO\r
         addq    $6 * SIZE, BO\r
-        movq    %rax, BI                        //  Index for BO\r
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values\r
-        leaq    (BO, BI, 8), BO\r
-        salq    $2, %rax                        // rax = rax * 4 ; number of values\r
-        leaq    (AO, %rax, 8), AO\r
-#endif\r
-\r
 \r
        vzeroall\r
 \r
-#ifndef TRMMKERNEL\r
-        movq    K, %rax\r
-#elif (defined(LEFT) && !defined(TRANSA)) || (!defined(LEFT) && defined(TRANSA))\r
         movq    K, %rax\r
-        subq    KK, %rax\r
-        movq    %rax, KKK\r
-#else\r
-        movq    KK, %rax\r
-#ifdef LEFT\r
-        addq    $4, %rax        // number of values in A\r
-#else\r
-        addq    $3, %rax        // number of values in BO\r
-#endif\r
-        movq    %rax, KKK\r
-#endif\r
-\r
 \r
        andq    $-8, %rax\r
        je      .L6_26\r
        ALIGN_4\r
 \r
 .L6_26:\r
-#ifndef TRMMKERNEL\r
         movq    K, %rax\r
-#else\r
-        movq    KKK, %rax\r
-#endif\r
 \r
        andq    $7, %rax                # if (k & 1)\r
        je .L6_29\r
 \r
        vmovddup        ALPHA, %xmm0\r
 \r
-#ifndef TRMMKERNEL\r
 \r
        vfmaddpd         (CO1),%xmm0, %xmm4,%xmm4\r
        vfmaddpd 2 * SIZE(CO1),%xmm0, %xmm7,%xmm7\r
        vfmaddpd         (CO1, LDC, 2),%xmm0, %xmm6,%xmm6\r
        vfmaddpd 2 * SIZE(CO1, LDC, 2),%xmm0, %xmm9,%xmm9\r
 \r
-#else\r
-       vmulpd  %xmm0, %xmm4,%xmm4\r
-       vmulpd  %xmm0, %xmm7,%xmm7\r
-\r
-       vmulpd  %xmm0, %xmm5,%xmm5\r
-       vmulpd  %xmm0, %xmm8,%xmm8\r
-\r
-       vmulpd  %xmm0, %xmm6,%xmm6\r
-       vmulpd  %xmm0, %xmm9,%xmm9\r
-\r
-#endif\r
 \r
        vmovups %xmm4 ,         (CO1)\r
        vmovups %xmm7 , 2 * SIZE(CO1)\r
        vmovups %xmm6 ,         (CO1, LDC, 2)\r
        vmovups %xmm9 , 2 * SIZE(CO1, LDC, 2)\r
 \r
-#if (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \\r
-    (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))\r
-        movq    K, %rax \r
-        subq    KKK, %rax\r
-        movq    %rax, BI                        //  Index for BO\r
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values\r
-        leaq    (BO, BI, 8), BO         \r
-        salq    $2, %rax                        // rax = rax * 4 ; number of values\r
-        leaq    (AO, %rax, 8), AO\r
-#endif  \r
-\r
-\r
-#if defined(TRMMKERNEL) && defined(LEFT)\r
-        addq    $4, KK\r
-#endif\r
 \r
        addq    $4 * SIZE, CO1          # coffset += 4\r
        ALIGN_4\r
        ALIGN_4\r
 \r
 .L6_31:\r
-#if !defined(TRMMKERNEL) || \\r
-        (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \\r
-        (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))\r
-        leaq    BUFFER1, BO             // first buffer to BO\r
-        addq    $6 * SIZE, BO\r
-#else\r
-        movq    KK, %rax\r
         leaq    BUFFER1, BO             // first buffer to BO\r
         addq    $6 * SIZE, BO\r
-        movq    %rax, BI                        //  Index for BO\r
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values\r
-        leaq    (BO, BI, 8), BO\r
-        salq    $1, %rax                        // rax = rax * 2 ; number of values\r
-        leaq    (AO, %rax, 8), AO\r
-#endif\r
 \r
 \r
        vzeroall\r
 \r
-#ifndef TRMMKERNEL\r
         movq    K, %rax\r
-#elif (defined(LEFT) && !defined(TRANSA)) || (!defined(LEFT) && defined(TRANSA))\r
-        movq    K, %rax\r
-        subq    KK, %rax\r
-        movq    %rax, KKK\r
-#else\r
-        movq    KK, %rax\r
-#ifdef LEFT\r
-        addq    $2, %rax        // number of values in AO\r
-#else\r
-        addq    $3, %rax        // number of values in BO\r
-#endif\r
-        movq    %rax, KKK\r
-#endif\r
-\r
 \r
        andq    $-8, %rax\r
        je      .L6_36\r
        ALIGN_4\r
 \r
 .L6_36:\r
-#ifndef TRMMKERNEL\r
         movq    K, %rax\r
-#else\r
-        movq    KKK, %rax\r
-#endif\r
 \r
        andq    $7, %rax                # if (k & 1)\r
        je .L6_39\r
 \r
        vmovddup        ALPHA, %xmm0\r
 \r
-#ifndef TRMMKERNEL\r
 \r
        vfmaddpd         (CO1),%xmm0, %xmm4,%xmm4\r
        vfmaddpd         (CO1, LDC),%xmm0, %xmm5,%xmm5\r
        vfmaddpd         (CO1, LDC, 2),%xmm0, %xmm6,%xmm6\r
 \r
-#else\r
-       vmulpd  %xmm0, %xmm4,%xmm4\r
-       vmulpd  %xmm0, %xmm5,%xmm5\r
-       vmulpd  %xmm0, %xmm6,%xmm6\r
-\r
-#endif\r
 \r
        vmovups %xmm4 ,         (CO1)\r
        vmovups %xmm5 ,         (CO1, LDC)\r
        vmovups %xmm6 ,         (CO1, LDC, 2)\r
 \r
-#if (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \\r
-    (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))\r
-        movq    K, %rax \r
-        subq    KKK, %rax\r
-        movq    %rax, BI                        //  Index for BO\r
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values\r
-        leaq    (BO, BI, 8), BO         \r
-        salq    $1, %rax                        // rax = rax * 2 ; number of values\r
-        leaq    (AO, %rax, 8), AO\r
-#endif  \r
-\r
-\r
-#if defined(TRMMKERNEL) && defined(LEFT)\r
-        addq    $2, KK\r
-#endif\r
 \r
        addq    $2 * SIZE, CO1          # coffset += 2\r
        ALIGN_4\r
        ALIGN_4\r
 \r
 .L6_41:\r
-#if !defined(TRMMKERNEL) || \\r
-        (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \\r
-        (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))\r
-        leaq    BUFFER1, BO             // first buffer to BO\r
-        addq    $6 * SIZE, BO\r
-#else\r
-        movq    KK, %rax\r
         leaq    BUFFER1, BO             // first buffer to BO\r
         addq    $6 * SIZE, BO\r
-        movq    %rax, BI                        //  Index for BO\r
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values\r
-        leaq    (BO, BI, 8), BO\r
-        leaq    (AO, %rax, 8), AO\r
-#endif\r
-\r
 \r
        vzeroall\r
 \r
-#ifndef TRMMKERNEL\r
-        movq    K, %rax\r
-#elif (defined(LEFT) && !defined(TRANSA)) || (!defined(LEFT) && defined(TRANSA))\r
         movq    K, %rax\r
-        subq    KK, %rax\r
-        movq    %rax, KKK\r
-#else\r
-        movq    KK, %rax\r
-#ifdef LEFT\r
-        addq    $1, %rax        // number of values in AO\r
-#else\r
-        addq    $3, %rax        // number of values in BO\r
-#endif\r
-        movq    %rax, KKK\r
-#endif\r
 \r
        andq    $-8, %rax\r
        je      .L6_46\r
        ALIGN_4\r
 \r
 .L6_46:\r
-#ifndef TRMMKERNEL\r
         movq    K, %rax\r
-#else\r
-        movq    KKK, %rax\r
-#endif\r
 \r
        andq    $7, %rax                # if (k & 1)\r
        je .L6_49\r
 \r
        vmovddup        ALPHA, %xmm0\r
 \r
-#ifndef TRMMKERNEL\r
 \r
        vfmaddsd         (CO1),%xmm0, %xmm4,%xmm4\r
        vfmaddsd         (CO1, LDC),%xmm0, %xmm5,%xmm5\r
        vfmaddsd         (CO1, LDC, 2),%xmm0, %xmm6,%xmm6\r
 \r
-#else\r
-       vmulsd  %xmm0, %xmm4,%xmm4\r
-       vmulsd  %xmm0, %xmm5,%xmm5\r
-       vmulsd  %xmm0, %xmm6,%xmm6\r
-\r
-#endif\r
-\r
        vmovsd  %xmm4 ,         (CO1)\r
        vmovsd  %xmm5 ,         (CO1, LDC)\r
        vmovsd  %xmm6 ,         (CO1, LDC, 2)\r
 \r
-#if (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \\r
-    (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))\r
-        movq    K, %rax \r
-        subq    KKK, %rax\r
-        movq    %rax, BI                        //  Index for BO\r
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values\r
-        leaq    (BO, BI, 8), BO         \r
-        leaq    (AO, %rax, 8), AO\r
-#endif  \r
-\r
-\r
-#if defined(TRMMKERNEL) && defined(LEFT)\r
-        addq    $1, KK\r
-#endif\r
 \r
        addq    $1 * SIZE, CO1          # coffset += 1\r
        ALIGN_4\r
        leaq    (C, LDC, 2), C           \r
        leaq    (C, LDC, 1), C          // c += 3 * ldc\r
 \r
-#if defined(TRMMKERNEL) && defined(LEFT)\r
-        movq    OFFSET, %rax\r
-        movq    %rax, KK\r
-#endif\r
 \r
        movq    A, AO                   // aoffset = a\r
        addq    $16 * SIZE, AO\r
        ALIGN_4\r
 \r
 .L7_11:\r
-#if !defined(TRMMKERNEL) || \\r
-        (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \\r
-        (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))\r
         leaq    BUFFER2, BO             // second buffer to BO\r
         addq    $6 * SIZE, BO\r
-#else\r
-        movq    KK, %rax\r
-        leaq    BUFFER2, BO             // second buffer to BO\r
-        addq    $6 * SIZE, BO\r
-        movq    %rax, BI                        //  Index for BO\r
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values\r
-        leaq    (BO, BI, 8), BO\r
-        salq    $3, %rax                        // rax = rax * 8 ; number of values\r
-        leaq    (AO, %rax, 8), AO\r
-#endif\r
 \r
 \r
        vzeroall\r
 \r
-#ifndef TRMMKERNEL\r
-        movq    K, %rax\r
-#elif (defined(LEFT) && !defined(TRANSA)) || (!defined(LEFT) && defined(TRANSA))\r
         movq    K, %rax\r
-        subq    KK, %rax\r
-        movq    %rax, KKK\r
-#else\r
-        movq    KK, %rax\r
-#ifdef LEFT\r
-        addq    $8, %rax        // number of values in AO\r
-#else\r
-        addq    $3, %rax        // number of values in BO\r
-#endif\r
-        movq    %rax, KKK\r
-#endif\r
 \r
 \r
        andq    $-8, %rax\r
        ALIGN_4\r
 \r
 .L7_16:\r
-#ifndef TRMMKERNEL\r
         movq    K, %rax\r
-#else\r
-        movq    KKK, %rax\r
-#endif\r
 \r
        andq    $7, %rax                # if (k & 1)\r
        je .L7_19\r
 \r
        vmovddup        ALPHA, %xmm0\r
 \r
-#ifndef TRMMKERNEL\r
-\r
        vfmaddpd         (CO1),%xmm0, %xmm4,%xmm4\r
        vfmaddpd 2 * SIZE(CO1),%xmm0, %xmm7,%xmm7\r
        vfmaddpd 4 * SIZE(CO1),%xmm0, %xmm10,%xmm10\r
        vfmaddpd 4 * SIZE(CO1, LDC, 2),%xmm0, %xmm12,%xmm12\r
        vfmaddpd 6 * SIZE(CO1, LDC, 2),%xmm0, %xmm15,%xmm15\r
 \r
-#else\r
-       vmulpd  %xmm0, %xmm4,%xmm4\r
-       vmulpd  %xmm0, %xmm7,%xmm7\r
-       vmulpd  %xmm0, %xmm10,%xmm10\r
-       vmulpd  %xmm0, %xmm13,%xmm13\r
-\r
-       vmulpd  %xmm0, %xmm5,%xmm5\r
-       vmulpd  %xmm0, %xmm8,%xmm8\r
-       vmulpd  %xmm0, %xmm11,%xmm11\r
-       vmulpd  %xmm0, %xmm14,%xmm14\r
-\r
-       vmulpd  %xmm0, %xmm6,%xmm6\r
-       vmulpd  %xmm0, %xmm9,%xmm9\r
-       vmulpd  %xmm0, %xmm12,%xmm12\r
-       vmulpd  %xmm0, %xmm15,%xmm15\r
-\r
-#endif\r
 \r
        vmovups %xmm4 ,         (CO1)\r
        vmovups %xmm7 , 2 * SIZE(CO1)\r
        vmovups %xmm12, 4 * SIZE(CO1, LDC, 2)\r
        vmovups %xmm15, 6 * SIZE(CO1, LDC, 2)\r
 \r
-#if (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \\r
-    (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))\r
-        movq    K, %rax \r
-        subq    KKK, %rax\r
-        movq    %rax, BI                        //  Index for BO\r
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values\r
-        leaq    (BO, BI, 8), BO         \r
-        salq    $3, %rax                        // rax = rax * 8 ; number of values\r
-        leaq    (AO, %rax, 8), AO\r
-#endif  \r
 \r
 \r
-#if defined(TRMMKERNEL) && defined(LEFT)\r
-        addq    $8, KK\r
-#endif\r
 \r
        addq    $8 * SIZE, CO1          # coffset += 8\r
        decq    I                       # i --\r
        ALIGN_4\r
 \r
 .L7_21:\r
-#if !defined(TRMMKERNEL) || \\r
-        (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \\r
-        (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))\r
         leaq    BUFFER2, BO             // second buffer to BO\r
         addq    $6 * SIZE, BO\r
-#else\r
-        movq    KK, %rax\r
-        leaq    BUFFER2, BO             // second buffer to BO\r
-        addq    $6 * SIZE, BO\r
-        movq    %rax, BI                        //  Index for BO\r
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values\r
-        leaq    (BO, BI, 8), BO\r
-        salq    $2, %rax                        // rax = rax * 4 ; number of values\r
-        leaq    (AO, %rax, 8), AO\r
-#endif\r
 \r
 \r
        vzeroall\r
 \r
-#ifndef TRMMKERNEL\r
-        movq    K, %rax\r
-#elif (defined(LEFT) && !defined(TRANSA)) || (!defined(LEFT) && defined(TRANSA))\r
         movq    K, %rax\r
-        subq    KK, %rax\r
-        movq    %rax, KKK\r
-#else\r
-        movq    KK, %rax\r
-#ifdef LEFT\r
-        addq    $4, %rax        // number of values in AO\r
-#else\r
-        addq    $3, %rax        // number of values in BO\r
-#endif\r
-        movq    %rax, KKK\r
-#endif\r
-\r
 \r
        andq    $-8, %rax\r
        je      .L7_26\r
        ALIGN_4\r
 \r
 .L7_26:\r
-#ifndef TRMMKERNEL\r
         movq    K, %rax\r
-#else\r
-        movq    KKK, %rax\r
-#endif\r
 \r
        andq    $7, %rax                # if (k & 1)\r
        je .L7_29\r
 \r
        vmovddup        ALPHA, %xmm0\r
 \r
-#ifndef TRMMKERNEL\r
 \r
        vfmaddpd         (CO1),%xmm0, %xmm4,%xmm4\r
        vfmaddpd 2 * SIZE(CO1),%xmm0, %xmm7,%xmm7\r
        vfmaddpd         (CO1, LDC, 2),%xmm0, %xmm6,%xmm6\r
        vfmaddpd 2 * SIZE(CO1, LDC, 2),%xmm0, %xmm9,%xmm9\r
 \r
-#else\r
-       vmulpd  %xmm0, %xmm4,%xmm4\r
-       vmulpd  %xmm0, %xmm7,%xmm7\r
-\r
-       vmulpd  %xmm0, %xmm5,%xmm5\r
-       vmulpd  %xmm0, %xmm8,%xmm8\r
-\r
-       vmulpd  %xmm0, %xmm6,%xmm6\r
-       vmulpd  %xmm0, %xmm9,%xmm9\r
-\r
-#endif\r
 \r
        vmovups %xmm4 ,         (CO1)\r
        vmovups %xmm7 , 2 * SIZE(CO1)\r
        vmovups %xmm6 ,         (CO1, LDC, 2)\r
        vmovups %xmm9 , 2 * SIZE(CO1, LDC, 2)\r
 \r
-#if (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \\r
-    (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))\r
-        movq    K, %rax \r
-        subq    KKK, %rax\r
-        movq    %rax, BI                        //  Index for BO\r
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values\r
-        leaq    (BO, BI, 8), BO         \r
-        salq    $2, %rax                        // rax = rax * 4 ; number of values\r
-        leaq    (AO, %rax, 8), AO\r
-#endif  \r
-\r
-\r
-#if defined(TRMMKERNEL) && defined(LEFT)\r
-        addq    $4, KK\r
-#endif\r
 \r
        addq    $4 * SIZE, CO1          # coffset += 4\r
        ALIGN_4\r
        ALIGN_4\r
 \r
 .L7_31:\r
-#if !defined(TRMMKERNEL) || \\r
-        (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \\r
-        (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))\r
-        leaq    BUFFER2, BO             // second buffer to BO\r
-        addq    $6 * SIZE, BO\r
-#else\r
-        movq    KK, %rax\r
         leaq    BUFFER2, BO             // second buffer to BO\r
         addq    $6 * SIZE, BO\r
-        movq    %rax, BI                        //  Index for BO\r
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values\r
-        leaq    (BO, BI, 8), BO\r
-        salq    $1, %rax                        // rax = rax * 2 ; number of values\r
-        leaq    (AO, %rax, 8), AO\r
-#endif\r
 \r
        vzeroall\r
 \r
-#ifndef TRMMKERNEL\r
-        movq    K, %rax\r
-#elif (defined(LEFT) && !defined(TRANSA)) || (!defined(LEFT) && defined(TRANSA))\r
         movq    K, %rax\r
-        subq    KK, %rax\r
-        movq    %rax, KKK\r
-#else\r
-        movq    KK, %rax\r
-#ifdef LEFT\r
-        addq    $2, %rax        // number of values in AO\r
-#else\r
-        addq    $3, %rax        // number of values in BO\r
-#endif\r
-        movq    %rax, KKK\r
-#endif\r
-\r
 \r
        andq    $-8, %rax\r
        je      .L7_36\r
        ALIGN_4\r
 \r
 .L7_36:\r
-#ifndef TRMMKERNEL\r
         movq    K, %rax\r
-#else\r
-        movq    KKK, %rax\r
-#endif\r
 \r
        andq    $7, %rax                # if (k & 1)\r
        je .L7_39\r
 \r
        vmovddup        ALPHA, %xmm0\r
 \r
-#ifndef TRMMKERNEL\r
 \r
        vfmaddpd         (CO1),%xmm0, %xmm4,%xmm4\r
        vfmaddpd         (CO1, LDC),%xmm0, %xmm5,%xmm5\r
        vfmaddpd         (CO1, LDC, 2),%xmm0, %xmm6,%xmm6\r
 \r
-#else\r
-       vmulpd  %xmm0, %xmm4,%xmm4\r
-       vmulpd  %xmm0, %xmm5,%xmm5\r
-       vmulpd  %xmm0, %xmm6,%xmm6\r
-\r
-#endif\r
 \r
        vmovups %xmm4 ,         (CO1)\r
        vmovups %xmm5 ,         (CO1, LDC)\r
        vmovups %xmm6 ,         (CO1, LDC, 2)\r
 \r
-#if (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \\r
-    (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))\r
-        movq    K, %rax \r
-        subq    KKK, %rax\r
-        movq    %rax, BI                        //  Index for BO\r
+\r
+       addq    $2 * SIZE, CO1          # coffset += 2\r
+       ALIGN_4\r
+       \r
+\r
+\r
+\r
+\r
+.L7_40:\r
+       testq   $1, M           \r
+       jz      .L7_60          // to next 6 lines of N\r
+\r
+       ALIGN_4\r
+\r
+.L7_41:\r
+        leaq    BUFFER2, BO             // second buffer to BO\r
+        addq    $6 * SIZE, BO\r
+\r
+       vzeroall\r
+\r
+        movq    K, %rax\r
+\r
+\r
+       andq    $-8, %rax\r
+       je      .L7_46\r
+       movq    %rax, BI                        //  Index for BO\r
         leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values\r
-        leaq    (BO, BI, 8), BO         \r
-        salq    $1, %rax                        // rax = rax * 2 ; number of values\r
-        leaq    (AO, %rax, 8), AO\r
-#endif  \r
 \r
+       leaq    (AO, %rax, 8), AO\r
+       leaq    (BO, BI, 8), BO\r
+       negq    BI\r
+       negq    %rax\r
+       ALIGN_4\r
+\r
+.L7_42:\r
+\r
+       prefetcht0      B_PR1(BO,BI,8)\r
+       KERNEL1x3_1(xxx)\r
+       KERNEL1x3_2(xxx)\r
+       KERNEL1x3_3(xxx)\r
+       prefetcht0      B_PR1+64(BO,BI,8)\r
+       KERNEL1x3_4(xxx)\r
+\r
+       KERNEL1x3_1(xxx)\r
+       KERNEL1x3_2(xxx)\r
+       prefetcht0      B_PR1+32(BO,BI,8)\r
+       KERNEL1x3_3(xxx)\r
+       KERNEL1x3_4(xxx)\r
+\r
+       je      .L7_46\r
+\r
+       prefetcht0      B_PR1(BO,BI,8)\r
+       KERNEL1x3_1(xxx)\r
+       KERNEL1x3_2(xxx)\r
+       KERNEL1x3_3(xxx)\r
+       prefetcht0      B_PR1+64(BO,BI,8)\r
+       KERNEL1x3_4(xxx)\r
+\r
+       KERNEL1x3_1(xxx)\r
+       KERNEL1x3_2(xxx)\r
+       prefetcht0      B_PR1+32(BO,BI,8)\r
+       KERNEL1x3_3(xxx)\r
+       KERNEL1x3_4(xxx)\r
+\r
+       je      .L7_46\r
+\r
+       jmp     .L7_42\r
+       ALIGN_4\r
+\r
+.L7_46:\r
+        movq    K, %rax\r
+\r
+       andq    $7, %rax                # if (k & 1)\r
+       je .L7_49\r
+\r
+       movq    %rax, BI                        //  Index for BO\r
+        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values\r
+\r
+       leaq    (AO, %rax, 8), AO\r
+       leaq    (BO, BI, 8), BO\r
+       negq    BI\r
+       negq    %rax\r
+       ALIGN_4\r
+\r
+.L7_47:\r
+\r
+       KERNEL1x3_SUB(xxx)\r
+       addq    $3, BI\r
+       addq    $1, %rax\r
+       jl      .L7_47\r
+       ALIGN_4\r
+\r
+\r
+.L7_49:\r
+\r
+       vmovddup        ALPHA, %xmm0\r
+\r
+\r
+       vfmaddsd         (CO1),%xmm0, %xmm4,%xmm4\r
+       vfmaddsd         (CO1, LDC),%xmm0, %xmm5,%xmm5\r
+       vfmaddsd         (CO1, LDC, 2),%xmm0, %xmm6,%xmm6\r
+\r
+\r
+       vmovsd  %xmm4 ,         (CO1)\r
+       vmovsd  %xmm5 ,         (CO1, LDC)\r
+       vmovsd  %xmm6 ,         (CO1, LDC, 2)\r
+\r
+\r
+       addq    $1 * SIZE, CO1          # coffset += 1\r
+\r
+.L7_60:\r
+\r
+       decq    J                       // j --\r
+       jg      .L6_01\r
+\r
+\r
+.L2_0:\r
+       cmpq    $0, Nmod6               // N % 6 == 0\r
+       je      .L999\r
+\r
+/************************************************************************************************\r
+* Loop for Nmod6 / 2 > 0\r
+*************************************************************************************************/\r
+\r
+       movq    Nmod6, J                \r
+       sarq    $1, J                   // j = j / 2\r
+       je      .L1_0\r
+       ALIGN_4\r
+\r
+.L2_01:\r
+       // copy to sub buffer\r
+       movq    B, BO1\r
+       leaq    BUFFER1, BO             // first buffer to BO\r
+       movq    K, %rax\r
+       ALIGN_4\r
+\r
+.L2_02b:\r
+\r
+       vmovups (BO1), %xmm0\r
+       vmovups %xmm0,       (BO)\r
+       addq    $2*SIZE,BO1\r
+       addq    $2*SIZE,BO\r
+       decq    %rax\r
+       jnz     .L2_02b\r
+\r
+.L2_02c:\r
+\r
+       movq    BO1, B                  // next offset of B\r
+\r
+.L2_10:\r
+       movq    C, CO1\r
+       leaq    (C, LDC, 2), C          // c += 2 * ldc\r
+\r
+       \r
+       movq    A, AO                   // aoffset = a\r
+       addq    $16 * SIZE, AO\r
+\r
+       movq    M,  I\r
+       sarq    $3, I                   // i = (m >> 3)\r
+       je      .L2_20\r
+\r
+       ALIGN_4\r
+\r
+.L2_11:\r
+\r
+       leaq    BUFFER1, BO             // first buffer to BO\r
+       addq    $4 * SIZE, BO\r
+\r
+       vzeroall\r
+\r
+        movq    K, %rax\r
+\r
+       andq    $-8, %rax                       //  K = K - ( K % 8 )\r
+       je      .L2_16\r
+       movq    %rax, BI                        //  Index for BO\r
+        leaq    (BI,BI,1), BI                   //  BI = BI * 2 ; number of values\r
+\r
+       salq    $3, %rax                        // rax = rax * 8 ; number of values\r
+       leaq    (AO, %rax, 8), AO\r
+       leaq    (BO, BI, 8), BO\r
+       negq    BI\r
+       negq    %rax\r
+       ALIGN_4\r
+\r
+.L2_12:\r
+\r
+       prefetcht0      B_PR1(BO,BI,8)\r
+       KERNEL8x2_1(xxx)\r
+       KERNEL8x2_2(xxx)\r
+       KERNEL8x2_3(xxx)\r
+       KERNEL8x2_4(xxx)\r
+\r
+       prefetcht0      B_PR1(BO,BI,8)\r
+       KERNEL8x2_1(xxx)\r
+       KERNEL8x2_2(xxx)\r
+       KERNEL8x2_3(xxx)\r
+       KERNEL8x2_4(xxx)\r
+\r
+       je      .L2_16\r
+\r
+       prefetcht0      B_PR1(BO,BI,8)\r
+       KERNEL8x2_1(xxx)\r
+       KERNEL8x2_2(xxx)\r
+       KERNEL8x2_3(xxx)\r
+       KERNEL8x2_4(xxx)\r
+\r
+       prefetcht0      B_PR1(BO,BI,8)\r
+       KERNEL8x2_1(xxx)\r
+       KERNEL8x2_2(xxx)\r
+       KERNEL8x2_3(xxx)\r
+       KERNEL8x2_4(xxx)\r
+\r
+       je      .L2_16\r
+\r
+       jmp     .L2_12\r
+       ALIGN_4\r
+\r
+.L2_16:\r
+        movq    K, %rax\r
+\r
+       andq    $7, %rax                # if (k & 1)\r
+       je .L2_19\r
+\r
+       movq    %rax, BI                        //  Index for BO\r
+        leaq    (BI,BI,1), BI                   //  BI = BI * 2 ; number of values\r
+\r
+       salq    $3, %rax                        // rax = rax * 8 ; number of values\r
+       leaq    (AO, %rax, 8), AO\r
+       leaq    (BO, BI, 8), BO\r
+       negq    BI\r
+       negq    %rax\r
+       ALIGN_4\r
+\r
+.L2_17:\r
+\r
+       KERNEL8x2_SUB(xxx)\r
+       addq    $2, BI\r
+       addq    $8, %rax\r
+       jl      .L2_17\r
+       ALIGN_4\r
+\r
+\r
+.L2_19:\r
+\r
+       vmovddup        ALPHA, %xmm0\r
+\r
+       vfmaddpd         (CO1),%xmm0, %xmm4,%xmm4\r
+       vfmaddpd 2 * SIZE(CO1),%xmm0, %xmm7,%xmm7\r
+       vfmaddpd 4 * SIZE(CO1),%xmm0, %xmm10,%xmm10\r
+       vfmaddpd 6 * SIZE(CO1),%xmm0, %xmm13,%xmm13\r
+\r
+       vfmaddpd         (CO1, LDC),%xmm0, %xmm5,%xmm5\r
+       vfmaddpd 2 * SIZE(CO1, LDC),%xmm0, %xmm8,%xmm8\r
+       vfmaddpd 4 * SIZE(CO1, LDC),%xmm0, %xmm11,%xmm11\r
+       vfmaddpd 6 * SIZE(CO1, LDC),%xmm0, %xmm14,%xmm14\r
+\r
+       vmovups %xmm4 ,         (CO1)\r
+       vmovups %xmm7 , 2 * SIZE(CO1)\r
+       vmovups %xmm10, 4 * SIZE(CO1)\r
+       vmovups %xmm13, 6 * SIZE(CO1)\r
+\r
+       vmovups %xmm5 ,         (CO1, LDC)\r
+       vmovups %xmm8 , 2 * SIZE(CO1, LDC)\r
+       vmovups %xmm11, 4 * SIZE(CO1, LDC)\r
+       vmovups %xmm14, 6 * SIZE(CO1, LDC)\r
+\r
+\r
+       addq    $8 * SIZE, CO1          # coffset += 8\r
+       decq    I                       # i --\r
+       jg      .L2_11\r
+       ALIGN_4 \r
+\r
+/**************************************************************************\r
+* Rest of M \r
+***************************************************************************/\r
+.L2_20:\r
+       // Test rest of M\r
+\r
+       testq   $7, M\r
+       jz      .L2_60          // to next 2 lines of N\r
+\r
+       testq   $4, M           \r
+       jz      .L2_30\r
+\r
+       ALIGN_4\r
+\r
+.L2_21:\r
+        leaq    BUFFER1, BO             // first buffer to BO\r
+        addq    $4 * SIZE, BO\r
+\r
+       vzeroall\r
+\r
+        movq    K, %rax\r
+\r
+       andq    $-8, %rax\r
+       je      .L2_26\r
+       movq    %rax, BI                        //  Index for BO\r
+        leaq    (BI,BI,1), BI                   //  BI = BI * 2 ; number of values\r
+\r
+       salq    $2, %rax                        // rax = rax * 4 ; number of values\r
+       leaq    (AO, %rax, 8), AO\r
+       leaq    (BO, BI, 8), BO\r
+       negq    BI\r
+       negq    %rax\r
+       ALIGN_4\r
+\r
+.L2_22:\r
+\r
+       prefetcht0      B_PR1(BO,BI,8)\r
+       KERNEL4x2_1(xxx)\r
+       KERNEL4x2_2(xxx)\r
+       KERNEL4x2_3(xxx)\r
+       KERNEL4x2_4(xxx)\r
+\r
+       prefetcht0      B_PR1(BO,BI,8)\r
+       KERNEL4x2_1(xxx)\r
+       KERNEL4x2_2(xxx)\r
+       KERNEL4x2_3(xxx)\r
+       KERNEL4x2_4(xxx)\r
+\r
+       je      .L2_26\r
+\r
+       prefetcht0      B_PR1(BO,BI,8)\r
+       KERNEL4x2_1(xxx)\r
+       KERNEL4x2_2(xxx)\r
+       KERNEL4x2_3(xxx)\r
+       KERNEL4x2_4(xxx)\r
+\r
+       prefetcht0      B_PR1(BO,BI,8)\r
+       KERNEL4x2_1(xxx)\r
+       KERNEL4x2_2(xxx)\r
+       KERNEL4x2_3(xxx)\r
+       KERNEL4x2_4(xxx)\r
+\r
+       je      .L2_26\r
+\r
+       jmp     .L2_22\r
+       ALIGN_4\r
+\r
+.L2_26:\r
+        movq    K, %rax\r
+\r
+       andq    $7, %rax                # if (k & 1)\r
+       je .L2_29\r
+\r
+       movq    %rax, BI                        //  Index for BO\r
+        leaq    (BI,BI,1), BI                   //  BI = BI * 2 ; number of values\r
+\r
+       salq    $2, %rax                        // rax = rax * 4 ; number of values\r
+       leaq    (AO, %rax, 8), AO\r
+       leaq    (BO, BI, 8), BO\r
+       negq    BI\r
+       negq    %rax\r
+       ALIGN_4\r
+\r
+.L2_27:\r
+\r
+       KERNEL4x2_SUB(xxx)\r
+       addq    $2, BI\r
+       addq    $4, %rax\r
+       jl      .L2_27\r
+       ALIGN_4\r
+\r
+\r
+.L2_29:\r
+\r
+       vmovddup        ALPHA, %xmm0\r
+\r
+       vfmaddpd         (CO1),%xmm0, %xmm4,%xmm4\r
+       vfmaddpd 2 * SIZE(CO1),%xmm0, %xmm7,%xmm7\r
+\r
+       vfmaddpd         (CO1, LDC),%xmm0, %xmm5,%xmm5\r
+       vfmaddpd 2 * SIZE(CO1, LDC),%xmm0, %xmm8,%xmm8\r
+\r
+       vmovups %xmm4 ,         (CO1)\r
+       vmovups %xmm7 , 2 * SIZE(CO1)\r
+\r
+       vmovups %xmm5 ,         (CO1, LDC)\r
+       vmovups %xmm8 , 2 * SIZE(CO1, LDC)\r
+\r
+       addq    $4 * SIZE, CO1          # coffset += 4\r
+       ALIGN_4\r
+       \r
+\r
+.L2_30:\r
+       testq   $2, M           \r
+       jz      .L2_40\r
+\r
+       ALIGN_4\r
+\r
+.L2_31:\r
+        leaq    BUFFER1, BO             // first buffer to BO\r
+        addq    $4 * SIZE, BO\r
+\r
+       vzeroall\r
+\r
+        movq    K, %rax\r
+\r
+       andq    $-8, %rax\r
+       je      .L2_36\r
+       movq    %rax, BI                        //  Index for BO\r
+        leaq    (BI,BI,1), BI                   //  BI = BI * 2 ; number of values\r
+\r
+       salq    $1, %rax                        // rax = rax *2 ; number of values\r
+       leaq    (AO, %rax, 8), AO\r
+       leaq    (BO, BI, 8), BO\r
+       negq    BI\r
+       negq    %rax\r
+       ALIGN_4\r
+\r
+.L2_32:\r
+\r
+       prefetcht0      B_PR1(BO,BI,8)\r
+       KERNEL2x2_1(xxx)\r
+       KERNEL2x2_2(xxx)\r
+       KERNEL2x2_3(xxx)\r
+       KERNEL2x2_4(xxx)\r
+\r
+       prefetcht0      B_PR1(BO,BI,8)\r
+       KERNEL2x2_1(xxx)\r
+       KERNEL2x2_2(xxx)\r
+       KERNEL2x2_3(xxx)\r
+       KERNEL2x2_4(xxx)\r
+\r
+       je      .L2_36\r
+\r
+       prefetcht0      B_PR1(BO,BI,8)\r
+       KERNEL2x2_1(xxx)\r
+       KERNEL2x2_2(xxx)\r
+       KERNEL2x2_3(xxx)\r
+       KERNEL2x2_4(xxx)\r
+\r
+       prefetcht0      B_PR1(BO,BI,8)\r
+       KERNEL2x2_1(xxx)\r
+       KERNEL2x2_2(xxx)\r
+       KERNEL2x2_3(xxx)\r
+       KERNEL2x2_4(xxx)\r
+\r
+       je      .L2_36\r
+\r
+       jmp     .L2_32\r
+       ALIGN_4\r
+\r
+.L2_36:\r
+        movq    K, %rax\r
+\r
+       andq    $7, %rax                # if (k & 1)\r
+       je .L2_39\r
+\r
+       movq    %rax, BI                        //  Index for BO\r
+        leaq    (BI,BI,1), BI                   //  BI = BI * 2 ; number of values\r
+       \r
+       salq    $1, %rax                        // rax = rax *2 ; number of values\r
+       leaq    (AO, %rax, 8), AO\r
+       leaq    (BO, BI, 8), BO\r
+       negq    BI\r
+       negq    %rax\r
+       ALIGN_4\r
+\r
+.L2_37:\r
+\r
+       KERNEL2x2_SUB(xxx)\r
+       addq    $2, BI\r
+       addq    $2, %rax\r
+       jl      .L2_37\r
+       ALIGN_4\r
+\r
+\r
+.L2_39:\r
+\r
+       vmovddup        ALPHA, %xmm0\r
+\r
+       vfmaddpd         (CO1),%xmm0, %xmm4,%xmm4\r
+       vfmaddpd         (CO1, LDC),%xmm0, %xmm5,%xmm5\r
+\r
+       vmovups %xmm4 ,         (CO1)\r
+       vmovups %xmm5 ,         (CO1, LDC)\r
+\r
+       addq    $2 * SIZE, CO1          # coffset += 2\r
+       ALIGN_4\r
+       \r
+\r
+.L2_40:\r
+       testq   $1, M           \r
+       jz      .L2_60          // to next 2 lines of N\r
+\r
+       ALIGN_4\r
+\r
+.L2_41:\r
+        leaq    BUFFER1, BO             // first buffer to BO\r
+        addq    $4 * SIZE, BO\r
+\r
+       vzeroall\r
+\r
+        movq    K, %rax\r
+\r
+       andq    $-8, %rax\r
+       je      .L2_46\r
+       movq    %rax, BI                        //  Index for BO\r
+        leaq    (BI,BI,1), BI                   //  BI = BI * 2 ; number of values\r
+\r
+       leaq    (AO, %rax, 8), AO\r
+       leaq    (BO, BI, 8), BO\r
+       negq    BI\r
+       negq    %rax\r
+       ALIGN_4\r
+\r
+.L2_42:\r
+\r
+       prefetcht0      B_PR1(BO,BI,8)\r
+       KERNEL1x2_1(xxx)\r
+       KERNEL1x2_2(xxx)\r
+       KERNEL1x2_3(xxx)\r
+       KERNEL1x2_4(xxx)\r
+\r
+       prefetcht0      B_PR1(BO,BI,8)\r
+       KERNEL1x2_1(xxx)\r
+       KERNEL1x2_2(xxx)\r
+       KERNEL1x2_3(xxx)\r
+       KERNEL1x2_4(xxx)\r
+\r
+       je      .L2_46\r
+\r
+       prefetcht0      B_PR1(BO,BI,8)\r
+       KERNEL1x2_1(xxx)\r
+       KERNEL1x2_2(xxx)\r
+       KERNEL1x2_3(xxx)\r
+       KERNEL1x2_4(xxx)\r
+\r
+       prefetcht0      B_PR1(BO,BI,8)\r
+       KERNEL1x2_1(xxx)\r
+       KERNEL1x2_2(xxx)\r
+       KERNEL1x2_3(xxx)\r
+       KERNEL1x2_4(xxx)\r
+\r
+       je      .L2_46\r
+\r
+       jmp     .L2_42\r
+       ALIGN_4\r
+\r
+.L2_46:\r
+        movq    K, %rax\r
+\r
+       andq    $7, %rax                # if (k & 1)\r
+       je .L2_49\r
+\r
+       movq    %rax, BI                        //  Index for BO\r
+        leaq    (BI,BI,1), BI                   //  BI = BI * 2 ; number of values\r
+\r
+       leaq    (AO, %rax, 8), AO\r
+       leaq    (BO, BI, 8), BO\r
+       negq    BI\r
+       negq    %rax\r
+       ALIGN_4\r
+\r
+.L2_47:\r
+\r
+       KERNEL1x2_SUB(xxx)\r
+       addq    $2, BI\r
+       addq    $1, %rax\r
+       jl      .L2_47\r
+       ALIGN_4\r
+\r
+\r
+.L2_49:\r
+\r
+       vmovddup        ALPHA, %xmm0\r
+\r
+       vfmaddsd         (CO1),%xmm0, %xmm4,%xmm4\r
+       vfmaddsd         (CO1, LDC),%xmm0, %xmm5,%xmm5\r
+\r
+       vmovsd  %xmm4 ,         (CO1)\r
+       vmovsd  %xmm5 ,         (CO1, LDC)\r
+\r
+\r
+       addq    $1 * SIZE, CO1          # coffset += 1\r
+       ALIGN_4\r
+       \r
+\r
+       \r
+.L2_60:\r
+\r
+       decq    J                       // j --\r
+       jg      .L2_01                  // next 2 lines of N\r
+\r
+\r
+\r
+.L1_0:\r
+\r
+/************************************************************************************************\r
+* Loop for Nmod6 % 2 > 0\r
+*************************************************************************************************/\r
+\r
+       movq    Nmod6, J                \r
+       andq    $1, J                   // j % 2\r
+       je      .L999\r
+       ALIGN_4\r
+\r
+.L1_01:\r
+       // copy to sub buffer\r
+       movq    B, BO1\r
+       leaq    BUFFER1, BO             // first buffer to BO\r
+       movq    K, %rax\r
+       ALIGN_4\r
+\r
+.L1_02b:\r
+\r
+       vmovsd  (BO1), %xmm0\r
+       vmovsd  %xmm0,       (BO)\r
+       addq    $1*SIZE,BO1\r
+       addq    $1*SIZE,BO\r
+       decq    %rax\r
+       jnz     .L1_02b\r
+\r
+.L1_02c:\r
+\r
+       movq    BO1, B                  // next offset of B\r
+\r
+.L1_10:\r
+       movq    C, CO1\r
+       leaq    (C, LDC, 1), C          // c += 1 * ldc\r
+\r
+       movq    A, AO                   // aoffset = a\r
+       addq    $16 * SIZE, AO\r
+\r
+       movq    M,  I\r
+       sarq    $3, I                   // i = (m >> 3)\r
+       je      .L1_20\r
+\r
+       ALIGN_4\r
+\r
+.L1_11:\r
+        leaq    BUFFER1, BO             // first buffer to BO\r
+        addq    $2 * SIZE, BO\r
+\r
+       vzeroall\r
+\r
+        movq    K, %rax\r
+\r
+       andq    $-8, %rax                       //  K = K - ( K % 8 )\r
+       je      .L1_16\r
+       movq    %rax, BI                        //  Index for BO\r
+\r
+       salq    $3, %rax                        // rax = rax * 8 ; number of values\r
+       leaq    (AO, %rax, 8), AO\r
+       leaq    (BO, BI, 8), BO\r
+       negq    BI\r
+       negq    %rax\r
+       ALIGN_4\r
+\r
+.L1_12:\r
+\r
+       prefetcht0      B_PR1(BO,BI,8)\r
+       KERNEL8x1_1(xxx)\r
+       KERNEL8x1_2(xxx)\r
+       KERNEL8x1_3(xxx)\r
+       KERNEL8x1_4(xxx)\r
+\r
+       KERNEL8x1_1(xxx)\r
+       KERNEL8x1_2(xxx)\r
+       KERNEL8x1_3(xxx)\r
+       KERNEL8x1_4(xxx)\r
+\r
+       je      .L1_16\r
+\r
+       prefetcht0      B_PR1(BO,BI,8)\r
+       KERNEL8x1_1(xxx)\r
+       KERNEL8x1_2(xxx)\r
+       KERNEL8x1_3(xxx)\r
+       KERNEL8x1_4(xxx)\r
+\r
+       KERNEL8x1_1(xxx)\r
+       KERNEL8x1_2(xxx)\r
+       KERNEL8x1_3(xxx)\r
+       KERNEL8x1_4(xxx)\r
+\r
+       je      .L1_16\r
+\r
+       jmp     .L1_12\r
+       ALIGN_4\r
+\r
+.L1_16:\r
+        movq    K, %rax\r
+\r
+       andq    $7, %rax                # if (k & 1)\r
+       je .L1_19\r
+\r
+       movq    %rax, BI                        //  Index for BO\r
+\r
+       salq    $3, %rax                        // rax = rax * 8 ; number of values\r
+       leaq    (AO, %rax, 8), AO\r
+       leaq    (BO, BI, 8), BO\r
+       negq    BI\r
+       negq    %rax\r
+       ALIGN_4\r
+\r
+.L1_17:\r
+\r
+       KERNEL8x1_SUB(xxx)\r
+       addq    $1, BI\r
+       addq    $8, %rax\r
+       jl      .L1_17\r
+       ALIGN_4\r
+\r
+\r
+.L1_19:\r
+\r
+       vmovddup        ALPHA, %xmm0\r
+\r
+       vfmaddpd         (CO1),%xmm0, %xmm4,%xmm4\r
+       vfmaddpd 2 * SIZE(CO1),%xmm0, %xmm7,%xmm7\r
+       vfmaddpd 4 * SIZE(CO1),%xmm0, %xmm10,%xmm10\r
+       vfmaddpd 6 * SIZE(CO1),%xmm0, %xmm13,%xmm13\r
+\r
+       vmovups %xmm4 ,         (CO1)\r
+       vmovups %xmm7 , 2 * SIZE(CO1)\r
+       vmovups %xmm10, 4 * SIZE(CO1)\r
+       vmovups %xmm13, 6 * SIZE(CO1)\r
+\r
+       addq    $8 * SIZE, CO1          # coffset += 8\r
+       decq    I                       # i --\r
+       jg      .L1_11\r
+       ALIGN_4 \r
+\r
+/**************************************************************************\r
+* Rest of M \r
+***************************************************************************/\r
+.L1_20:\r
+       // Test rest of M\r
+\r
+       testq   $7, M\r
+       jz      .L999\r
+\r
+       testq   $4, M           \r
+       jz      .L1_30\r
+\r
+       ALIGN_4\r
+\r
+.L1_21:\r
+        leaq    BUFFER1, BO             // first buffer to BO\r
+        addq    $2 * SIZE, BO\r
+\r
+\r
+       vzeroall\r
+\r
+        movq    K, %rax\r
+\r
+       andq    $-8, %rax\r
+       je      .L1_26\r
+       movq    %rax, BI                        //  Index for BO\r
+\r
+       salq    $2, %rax                        // rax = rax * 4 ; number of values\r
+       leaq    (AO, %rax, 8), AO\r
+       leaq    (BO, BI, 8), BO\r
+       negq    BI\r
+       negq    %rax\r
+       ALIGN_4\r
+\r
+.L1_22:\r
+\r
+       prefetcht0      B_PR1(BO,BI,8)\r
+       KERNEL4x1_1(xxx)\r
+       KERNEL4x1_2(xxx)\r
+       KERNEL4x1_3(xxx)\r
+       KERNEL4x1_4(xxx)\r
+\r
+       KERNEL4x1_1(xxx)\r
+       KERNEL4x1_2(xxx)\r
+       KERNEL4x1_3(xxx)\r
+       KERNEL4x1_4(xxx)\r
+\r
+       je      .L1_26\r
+\r
+       prefetcht0      B_PR1(BO,BI,8)\r
+       KERNEL4x1_1(xxx)\r
+       KERNEL4x1_2(xxx)\r
+       KERNEL4x1_3(xxx)\r
+       KERNEL4x1_4(xxx)\r
+\r
+       KERNEL4x1_1(xxx)\r
+       KERNEL4x1_2(xxx)\r
+       KERNEL4x1_3(xxx)\r
+       KERNEL4x1_4(xxx)\r
+\r
+       je      .L1_26\r
+\r
+       jmp     .L1_22\r
+       ALIGN_4\r
+\r
+.L1_26:\r
+        movq    K, %rax\r
+\r
+       andq    $7, %rax                # if (k & 1)\r
+       je .L1_29\r
+\r
+       movq    %rax, BI                        //  Index for BO\r
+\r
+       salq    $2, %rax                        // rax = rax * 4 ; number of values\r
+       leaq    (AO, %rax, 8), AO\r
+       leaq    (BO, BI, 8), BO\r
+       negq    BI\r
+       negq    %rax\r
+       ALIGN_4\r
+\r
+.L1_27:\r
+\r
+       KERNEL4x1_SUB(xxx)\r
+       addq    $1, BI\r
+       addq    $4, %rax\r
+       jl      .L1_27\r
+       ALIGN_4\r
+\r
+\r
+.L1_29:\r
+\r
+       vmovddup        ALPHA, %xmm0\r
+\r
+       vfmaddpd         (CO1),%xmm0, %xmm4,%xmm4\r
+       vfmaddpd 2 * SIZE(CO1),%xmm0, %xmm7,%xmm7\r
+\r
+       vmovups %xmm4 ,         (CO1)\r
+       vmovups %xmm7 , 2 * SIZE(CO1)\r
+\r
+       addq    $4 * SIZE, CO1          # coffset += 4\r
+       ALIGN_4\r
+       \r
+\r
+.L1_30:\r
+       testq   $2, M           \r
+       jz      .L1_40\r
+\r
+       ALIGN_4\r
+\r
+.L1_31:\r
+        leaq    BUFFER1, BO             // first buffer to BO\r
+        addq    $2 * SIZE, BO\r
+\r
+\r
+       vzeroall\r
+\r
+        movq    K, %rax\r
+\r
+       andq    $-8, %rax\r
+       je      .L1_36\r
+       movq    %rax, BI                        //  Index for BO\r
+\r
+       salq    $1, %rax                        // rax = rax *2 ; number of values\r
+       leaq    (AO, %rax, 8), AO\r
+       leaq    (BO, BI, 8), BO\r
+       negq    BI\r
+       negq    %rax\r
+       ALIGN_4\r
+\r
+.L1_32:\r
+\r
+       prefetcht0      B_PR1(BO,BI,8)\r
+       KERNEL2x1_1(xxx)\r
+       KERNEL2x1_2(xxx)\r
+       KERNEL2x1_3(xxx)\r
+       KERNEL2x1_4(xxx)\r
+\r
+       KERNEL2x1_1(xxx)\r
+       KERNEL2x1_2(xxx)\r
+       KERNEL2x1_3(xxx)\r
+       KERNEL2x1_4(xxx)\r
+\r
+       je      .L1_36\r
+\r
+       KERNEL2x1_1(xxx)\r
+       KERNEL2x1_2(xxx)\r
+       KERNEL2x1_3(xxx)\r
+       KERNEL2x1_4(xxx)\r
+\r
+       KERNEL2x1_1(xxx)\r
+       KERNEL2x1_2(xxx)\r
+       KERNEL2x1_3(xxx)\r
+       KERNEL2x1_4(xxx)\r
+\r
+       je      .L1_36\r
+\r
+       jmp     .L1_32\r
+       ALIGN_4\r
+\r
+.L1_36:\r
+        movq    K, %rax\r
+\r
+       andq    $7, %rax                # if (k & 1)\r
+       je .L1_39\r
+\r
+       movq    %rax, BI                        //  Index for BO\r
+       \r
+       salq    $1, %rax                        // rax = rax *2 ; number of values\r
+       leaq    (AO, %rax, 8), AO\r
+       leaq    (BO, BI, 8), BO\r
+       negq    BI\r
+       negq    %rax\r
+       ALIGN_4\r
+\r
+.L1_37:\r
+\r
+       KERNEL2x1_SUB(xxx)\r
+       addq    $1, BI\r
+       addq    $2, %rax\r
+       jl      .L1_37\r
+       ALIGN_4\r
+\r
+\r
+.L1_39:\r
+\r
+       vmovddup        ALPHA, %xmm0\r
+\r
+       vfmaddpd         (CO1),%xmm0, %xmm4,%xmm4\r
 \r
-#if defined(TRMMKERNEL) && defined(LEFT)\r
-        addq    $2, KK\r
-#endif\r
+       vmovups %xmm4 ,         (CO1)\r
 \r
        addq    $2 * SIZE, CO1          # coffset += 2\r
        ALIGN_4\r
        \r
 \r
-\r
-\r
-\r
-.L7_40:\r
+.L1_40:\r
        testq   $1, M           \r
-       jz      .L7_60          // to next 6 lines of N\r
+       jz      .L999\r
 \r
        ALIGN_4\r
 \r
-.L7_41:\r
-#if !defined(TRMMKERNEL) || \\r
-        (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \\r
-        (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))\r
-        leaq    BUFFER2, BO             // second buffer to BO\r
-        addq    $6 * SIZE, BO\r
-#else\r
-        movq    KK, %rax\r
-        leaq    BUFFER2, BO             // second buffer to BO\r
-        addq    $6 * SIZE, BO\r
-        movq    %rax, BI                        //  Index for BO\r
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values\r
-        leaq    (BO, BI, 8), BO\r
-        leaq    (AO, %rax, 8), AO\r
-#endif\r
-\r
+.L1_41:\r
+        leaq    BUFFER1, BO             // first buffer to BO\r
+        addq    $2 * SIZE, BO\r
 \r
        vzeroall\r
 \r
-#ifndef TRMMKERNEL\r
         movq    K, %rax\r
-#elif (defined(LEFT) && !defined(TRANSA)) || (!defined(LEFT) && defined(TRANSA))\r
-        movq    K, %rax\r
-        subq    KK, %rax\r
-        movq    %rax, KKK\r
-#else\r
-        movq    KK, %rax\r
-#ifdef LEFT\r
-        addq    $1, %rax        // number of values in AO\r
-#else\r
-        addq    $3, %rax        // number of values in BO\r
-#endif\r
-        movq    %rax, KKK\r
-#endif\r
-\r
 \r
        andq    $-8, %rax\r
-       je      .L7_46\r
+       je      .L1_46\r
        movq    %rax, BI                        //  Index for BO\r
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values\r
 \r
        leaq    (AO, %rax, 8), AO\r
        leaq    (BO, BI, 8), BO\r
        negq    %rax\r
        ALIGN_4\r
 \r
-.L7_42:\r
+.L1_42:\r
 \r
        prefetcht0      B_PR1(BO,BI,8)\r
-       KERNEL1x3_1(xxx)\r
-       KERNEL1x3_2(xxx)\r
-       KERNEL1x3_3(xxx)\r
-       prefetcht0      B_PR1+64(BO,BI,8)\r
-       KERNEL1x3_4(xxx)\r
+       KERNEL1x1_1(xxx)\r
+       KERNEL1x1_2(xxx)\r
+       KERNEL1x1_3(xxx)\r
+       KERNEL1x1_4(xxx)\r
 \r
-       KERNEL1x3_1(xxx)\r
-       KERNEL1x3_2(xxx)\r
-       prefetcht0      B_PR1+32(BO,BI,8)\r
-       KERNEL1x3_3(xxx)\r
-       KERNEL1x3_4(xxx)\r
+       KERNEL1x1_1(xxx)\r
+       KERNEL1x1_2(xxx)\r
+       KERNEL1x1_3(xxx)\r
+       KERNEL1x1_4(xxx)\r
 \r
-       je      .L7_46\r
+       je      .L1_46\r
 \r
        prefetcht0      B_PR1(BO,BI,8)\r
-       KERNEL1x3_1(xxx)\r
-       KERNEL1x3_2(xxx)\r
-       KERNEL1x3_3(xxx)\r
-       prefetcht0      B_PR1+64(BO,BI,8)\r
-       KERNEL1x3_4(xxx)\r
+       KERNEL1x1_1(xxx)\r
+       KERNEL1x1_2(xxx)\r
+       KERNEL1x1_3(xxx)\r
+       KERNEL1x1_4(xxx)\r
 \r
-       KERNEL1x3_1(xxx)\r
-       KERNEL1x3_2(xxx)\r
-       prefetcht0      B_PR1+32(BO,BI,8)\r
-       KERNEL1x3_3(xxx)\r
-       KERNEL1x3_4(xxx)\r
+       KERNEL1x1_1(xxx)\r
+       KERNEL1x1_2(xxx)\r
+       KERNEL1x1_3(xxx)\r
+       KERNEL1x1_4(xxx)\r
 \r
-       je      .L7_46\r
+       je      .L1_46\r
 \r
-       jmp     .L7_42\r
+       jmp     .L1_42\r
        ALIGN_4\r
 \r
-.L7_46:\r
-#ifndef TRMMKERNEL\r
+.L1_46:\r
         movq    K, %rax\r
-#else\r
-        movq    KKK, %rax\r
-#endif\r
 \r
        andq    $7, %rax                # if (k & 1)\r
-       je .L7_49\r
+       je .L1_49\r
 \r
        movq    %rax, BI                        //  Index for BO\r
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values\r
 \r
        leaq    (AO, %rax, 8), AO\r
        leaq    (BO, BI, 8), BO\r
        negq    %rax\r
        ALIGN_4\r
 \r
-.L7_47:\r
+.L1_47:\r
 \r
-       KERNEL1x3_SUB(xxx)\r
-       addq    $3, BI\r
+       KERNEL1x1_SUB(xxx)\r
+       addq    $1, BI\r
        addq    $1, %rax\r
-       jl      .L7_47\r
+       jl      .L1_47\r
        ALIGN_4\r
 \r
 \r
-.L7_49:\r
+.L1_49:\r
 \r
        vmovddup        ALPHA, %xmm0\r
 \r
-#ifndef TRMMKERNEL\r
-\r
        vfmaddsd         (CO1),%xmm0, %xmm4,%xmm4\r
-       vfmaddsd         (CO1, LDC),%xmm0, %xmm5,%xmm5\r
-       vfmaddsd         (CO1, LDC, 2),%xmm0, %xmm6,%xmm6\r
 \r
-#else\r
-       vmulsd  %xmm0, %xmm4,%xmm4\r
-       vmulsd  %xmm0, %xmm5,%xmm5\r
-       vmulsd  %xmm0, %xmm6,%xmm6\r
+       vmovsd  %xmm4 ,         (CO1)\r
+\r
+       addq    $1 * SIZE, CO1          # coffset += 1\r
+       ALIGN_4\r
+       \r
+\r
+.L999:\r
+       movq            SP, %rsp\r
+       movq       (%rsp), %rbx\r
+       movq      8(%rsp), %rbp\r
+       movq     16(%rsp), %r12\r
+       movq     24(%rsp), %r13\r
+       movq     32(%rsp), %r14\r
+       movq     40(%rsp), %r15\r
 \r
+#ifdef WINDOWS_ABI\r
+       movq     48(%rsp), %rdi\r
+       movq     56(%rsp), %rsi\r
+       movups   64(%rsp), %xmm6\r
+       movups   80(%rsp), %xmm7\r
+       movups   96(%rsp), %xmm8\r
+       movups  112(%rsp), %xmm9\r
+       movups  128(%rsp), %xmm10\r
+       movups  144(%rsp), %xmm11\r
+       movups  160(%rsp), %xmm12\r
+       movups  176(%rsp), %xmm13\r
+       movups  192(%rsp), %xmm14\r
+       movups  208(%rsp), %xmm15\r
 #endif\r
 \r
-       vmovsd  %xmm4 ,         (CO1)\r
-       vmovsd  %xmm5 ,         (CO1, LDC)\r
-       vmovsd  %xmm6 ,         (CO1, LDC, 2)\r
+       addq    $STACKSIZE, %rsp\r
+       ret\r
 \r
-#if (defined(TRMMKERNEL) &&  defined(LEFT) &&  defined(TRANSA)) || \\r
-    (defined(TRMMKERNEL) && !defined(LEFT) && !defined(TRANSA))\r
-        movq    K, %rax \r
-        subq    KKK, %rax\r
-        movq    %rax, BI                        //  Index for BO\r
-        leaq    (BI,BI,2), BI                   //  BI = BI * 3 ; number of values\r
-        leaq    (BO, BI, 8), BO         \r
-        leaq    (AO, %rax, 8), AO\r
-#endif  \r
+       EPILOGUE\r
 \r
 \r
-#if defined(TRMMKERNEL) && defined(LEFT)\r
-        addq    $1, KK\r
+#else\r
+/*************************************************************************************\r
+* TRMM Kernel\r
+*************************************************************************************/\r
+       PROLOGUE\r
+       PROFCODE\r
+       \r
+       subq    $STACKSIZE, %rsp\r
+       movq    %rbx,   (%rsp)\r
+       movq    %rbp,  8(%rsp)\r
+       movq    %r12, 16(%rsp)\r
+       movq    %r13, 24(%rsp)\r
+       movq    %r14, 32(%rsp)\r
+       movq    %r15, 40(%rsp)\r
+\r
+       vzeroupper\r
+\r
+#ifdef WINDOWS_ABI\r
+       movq    %rdi,    48(%rsp)\r
+       movq    %rsi,    56(%rsp)\r
+       movups  %xmm6,   64(%rsp)\r
+       movups  %xmm7,   80(%rsp)\r
+       movups  %xmm8,   96(%rsp)\r
+       movups  %xmm9,  112(%rsp)\r
+       movups  %xmm10, 128(%rsp)\r
+       movups  %xmm11, 144(%rsp)\r
+       movups  %xmm12, 160(%rsp)\r
+       movups  %xmm13, 176(%rsp)\r
+       movups  %xmm14, 192(%rsp)\r
+       movups  %xmm15, 208(%rsp)\r
+\r
+       movq    ARG1,      OLD_M\r
+       movq    ARG2,      OLD_N\r
+       movq    ARG3,      OLD_K\r
+       movq    OLD_A,     A\r
+       movq    OLD_B,     B\r
+       movq    OLD_C,     C\r
+       movq    OLD_LDC,   LDC\r
+#ifdef TRMMKERNEL\r
+       movsd   OLD_OFFSET, %xmm12\r
 #endif\r
+       vmovaps %xmm3, %xmm0\r
 \r
-       addq    $1 * SIZE, CO1          # coffset += 1\r
+#else\r
+       movq    STACKSIZE +  8(%rsp), LDC\r
+#ifdef TRMMKERNEL\r
+       movsd   STACKSIZE + 16(%rsp), %xmm12\r
+#endif\r
 \r
-.L7_60:\r
+#endif\r
 \r
-       decq    J                       // j --\r
-       jg      .L6_01\r
+       movq    %rsp, SP      # save old stack\r
+        subq    $128 + L_BUFFER_SIZE, %rsp\r
+        andq    $-4096, %rsp    # align stack\r
 \r
+        STACK_TOUCH\r
 \r
-.L2_0:\r
-       cmpq    $0, Nmod6               // N % 6 == 0\r
+       cmpq    $0, OLD_M\r
        je      .L999\r
 \r
-/************************************************************************************************\r
-* Loop for Nmod6 / 2 > 0\r
-*************************************************************************************************/\r
+       cmpq    $0, OLD_N\r
+       je      .L999\r
 \r
-       movq    Nmod6, J                \r
-       sarq    $1, J                   // j = j / 2\r
+       cmpq    $0, OLD_K\r
+       je      .L999\r
+\r
+       movq    OLD_M, M\r
+       movq    OLD_N, N\r
+       movq    OLD_K, K\r
+\r
+       vmovsd   %xmm0, ALPHA\r
+\r
+       salq    $BASE_SHIFT, LDC\r
+\r
+       movq    N, %rax\r
+        xorq    %rdx, %rdx\r
+        movq    $2,  %rdi\r
+        divq    %rdi                    //    N / 2\r
+        movq    %rax, Ndiv6             //    N / 2\r
+        movq    %rdx, Nmod6             //    N % 2\r
+\r
+       \r
+\r
+#ifdef TRMMKERNEL\r
+       vmovsd  %xmm12, OFFSET\r
+       vmovsd  %xmm12, KK\r
+#ifndef LEFT\r
+       negq    KK\r
+#endif \r
+#endif\r
+\r
+       movq    Ndiv6,  J\r
+       cmpq    $0, J\r
        je      .L1_0\r
        ALIGN_4\r
 \r
+.L2_0:\r
+\r
 .L2_01:\r
        // copy to sub buffer\r
        movq    B, BO1\r
 \r
        \r
 .L2_60:\r
+#if defined(TRMMKERNEL) && !defined(LEFT)\r
+        addq    $2, KK\r
+#endif\r
 \r
        decq    J                       // j --\r
        jg      .L2_01                  // next 2 lines of N\r
        ret\r
 \r
        EPILOGUE\r
+\r
+\r
+\r
+#endif\r