Add files via upload
authorwjc404 <52632443+wjc404@users.noreply.github.com>
Fri, 19 Jul 2019 15:47:58 +0000 (23:47 +0800)
committerGitHub <noreply@github.com>
Fri, 19 Jul 2019 15:47:58 +0000 (23:47 +0800)
kernel/x86_64/dgemm_kernel_4x8_haswell.S

index 42692f3..e26bdde 100644 (file)
@@ -1865,6 +1865,14 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 \r
        SAVE4x12\r
 \r
+        salq    $3, K\r
+        prefetcht2 32(B)\r
+        prefetcht2 32(B, K, 8)\r
+        prefetcht2 96(B)\r
+        prefetcht2 96(B, K, 8)\r
+        addq    $128, B\r
+        sarq    $3, K\r
+\r
        decq    I                       # i --\r
        jne     .L12_11\r
        ALIGN_4 \r
@@ -1872,6 +1880,11 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 /**************************************************************************\r
 * Rest of M \r
 ***************************************************************************/\r
+        movq    M, I\r
+        sarq    $2, I\r
+        salq    $7, I\r
+        subq    I, B\r
+\r
 .L12_20:\r
        // Test rest of M\r
 \r
@@ -2102,7 +2115,7 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 \r
        jmp .L13_16\r
 \r
-\r
+        PREFETCHT0_C\r
 .L13_13:\r
 \r
        test $1, %rax\r
@@ -2147,6 +2160,14 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 \r
        SAVE4x12\r
 \r
+        salq    $3, K\r
+        prefetcht2 (B)\r
+        prefetcht2 (B, K, 8)\r
+        prefetcht2 64(B)\r
+        prefetcht2 64(B, K, 8)\r
+        addq    $128, B\r
+        sarq    $3, K\r
+\r
        decq    I                       # i --\r
        jne     .L13_11\r
        ALIGN_4 \r
@@ -2154,6 +2175,12 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 /**************************************************************************\r
 * Rest of M \r
 ***************************************************************************/\r
+\r
+        movq    M, I\r
+        sarq    $2, I\r
+        salq    $7, I\r
+        subq    I, B\r
+\r
 .L13_20:\r
        // Test rest of M\r
 \r