lib/raid6/recov_loongarch_simd.c

   1 // SPDX-License-Identifier: GPL-2.0-only
   2 /*
   3  * RAID6 recovery algorithms in LoongArch SIMD (LSX & LASX)
   4  *
   5  * Copyright (C) 2023 WANG Xuerui <git@xen0n.name>
   6  *
   7  * Originally based on recov_avx2.c and recov_ssse3.c:
   8  *
   9  * Copyright (C) 2012 Intel Corporation
  10  * Author: Jim Kukunas <james.t.kukunas@linux.intel.com>
  11  */
  12
  13 #include <linux/raid/pq.h>
  14 #include "loongarch.h"
  15
  16 /*
  17  * Unlike with the syndrome calculation algorithms, there's no boot-time
  18  * selection of recovery algorithms by benchmarking, so we have to specify
  19  * the priorities and hope the future cores will all have decent vector
  20  * support (i.e. no LASX slower than LSX, or even scalar code).
  21  */
  22
  23 #ifdef CONFIG_CPU_HAS_LSX
  24 static int raid6_has_lsx(void)
  25 {
  26         return cpu_has_lsx;
  27 }
  28
  29 static void raid6_2data_recov_lsx(int disks, size_t bytes, int faila,
  30                                   int failb, void **ptrs)
  31 {
  32         u8 *p, *q, *dp, *dq;
  33         const u8 *pbmul;        /* P multiplier table for B data */
  34         const u8 *qmul;         /* Q multiplier table (for both) */
  35
  36         p = (u8 *)ptrs[disks - 2];
  37         q = (u8 *)ptrs[disks - 1];
  38
  39         /*
  40          * Compute syndrome with zero for the missing data pages
  41          * Use the dead data pages as temporary storage for
  42          * delta p and delta q
  43          */
  44         dp = (u8 *)ptrs[faila];
  45         ptrs[faila] = (void *)raid6_empty_zero_page;
  46         ptrs[disks - 2] = dp;
  47         dq = (u8 *)ptrs[failb];
  48         ptrs[failb] = (void *)raid6_empty_zero_page;
  49         ptrs[disks - 1] = dq;
  50
  51         raid6_call.gen_syndrome(disks, bytes, ptrs);
  52
  53         /* Restore pointer table */
  54         ptrs[faila] = dp;
  55         ptrs[failb] = dq;
  56         ptrs[disks - 2] = p;
  57         ptrs[disks - 1] = q;
  58
  59         /* Now, pick the proper data tables */
  60         pbmul = raid6_vgfmul[raid6_gfexi[failb - faila]];
  61         qmul  = raid6_vgfmul[raid6_gfinv[raid6_gfexp[faila] ^ raid6_gfexp[failb]]];
  62
  63         kernel_fpu_begin();
  64
  65         /*
  66          * vr20, vr21: qmul
  67          * vr22, vr23: pbmul
  68          */
  69         asm volatile("vld $vr20, %0" : : "m" (qmul[0]));
  70         asm volatile("vld $vr21, %0" : : "m" (qmul[16]));
  71         asm volatile("vld $vr22, %0" : : "m" (pbmul[0]));
  72         asm volatile("vld $vr23, %0" : : "m" (pbmul[16]));
  73
  74         while (bytes) {
  75                 /* vr4 - vr7: Q */
  76                 asm volatile("vld $vr4, %0" : : "m" (q[0]));
  77                 asm volatile("vld $vr5, %0" : : "m" (q[16]));
  78                 asm volatile("vld $vr6, %0" : : "m" (q[32]));
  79                 asm volatile("vld $vr7, %0" : : "m" (q[48]));
  80                 /*  vr4 - vr7: Q + Qxy */
  81                 asm volatile("vld $vr8, %0" : : "m" (dq[0]));
  82                 asm volatile("vld $vr9, %0" : : "m" (dq[16]));
  83                 asm volatile("vld $vr10, %0" : : "m" (dq[32]));
  84                 asm volatile("vld $vr11, %0" : : "m" (dq[48]));
  85                 asm volatile("vxor.v $vr4, $vr4, $vr8");
  86                 asm volatile("vxor.v $vr5, $vr5, $vr9");
  87                 asm volatile("vxor.v $vr6, $vr6, $vr10");
  88                 asm volatile("vxor.v $vr7, $vr7, $vr11");
  89                 /* vr0 - vr3: P */
  90                 asm volatile("vld $vr0, %0" : : "m" (p[0]));
  91                 asm volatile("vld $vr1, %0" : : "m" (p[16]));
  92                 asm volatile("vld $vr2, %0" : : "m" (p[32]));
  93                 asm volatile("vld $vr3, %0" : : "m" (p[48]));
  94                 /* vr0 - vr3: P + Pxy */
  95                 asm volatile("vld $vr8, %0" : : "m" (dp[0]));
  96                 asm volatile("vld $vr9, %0" : : "m" (dp[16]));
  97                 asm volatile("vld $vr10, %0" : : "m" (dp[32]));
  98                 asm volatile("vld $vr11, %0" : : "m" (dp[48]));
  99                 asm volatile("vxor.v $vr0, $vr0, $vr8");
 100                 asm volatile("vxor.v $vr1, $vr1, $vr9");
 101                 asm volatile("vxor.v $vr2, $vr2, $vr10");
 102                 asm volatile("vxor.v $vr3, $vr3, $vr11");
 103
 104                 /* vr8 - vr11: higher 4 bits of each byte of (Q + Qxy) */
 105                 asm volatile("vsrli.b $vr8, $vr4, 4");
 106                 asm volatile("vsrli.b $vr9, $vr5, 4");
 107                 asm volatile("vsrli.b $vr10, $vr6, 4");
 108                 asm volatile("vsrli.b $vr11, $vr7, 4");
 109                 /* vr4 - vr7: lower 4 bits of each byte of (Q + Qxy) */
 110                 asm volatile("vandi.b $vr4, $vr4, 0x0f");
 111                 asm volatile("vandi.b $vr5, $vr5, 0x0f");
 112                 asm volatile("vandi.b $vr6, $vr6, 0x0f");
 113                 asm volatile("vandi.b $vr7, $vr7, 0x0f");
 114                 /* lookup from qmul[0] */
 115                 asm volatile("vshuf.b $vr4, $vr20, $vr20, $vr4");
 116                 asm volatile("vshuf.b $vr5, $vr20, $vr20, $vr5");
 117                 asm volatile("vshuf.b $vr6, $vr20, $vr20, $vr6");
 118                 asm volatile("vshuf.b $vr7, $vr20, $vr20, $vr7");
 119                 /* lookup from qmul[16] */
 120                 asm volatile("vshuf.b $vr8, $vr21, $vr21, $vr8");
 121                 asm volatile("vshuf.b $vr9, $vr21, $vr21, $vr9");
 122                 asm volatile("vshuf.b $vr10, $vr21, $vr21, $vr10");
 123                 asm volatile("vshuf.b $vr11, $vr21, $vr21, $vr11");
 124                 /* vr16 - vr19: B(Q + Qxy) */
 125                 asm volatile("vxor.v $vr16, $vr8, $vr4");
 126                 asm volatile("vxor.v $vr17, $vr9, $vr5");
 127                 asm volatile("vxor.v $vr18, $vr10, $vr6");
 128                 asm volatile("vxor.v $vr19, $vr11, $vr7");
 129
 130                 /* vr4 - vr7: higher 4 bits of each byte of (P + Pxy) */
 131                 asm volatile("vsrli.b $vr4, $vr0, 4");
 132                 asm volatile("vsrli.b $vr5, $vr1, 4");
 133                 asm volatile("vsrli.b $vr6, $vr2, 4");
 134                 asm volatile("vsrli.b $vr7, $vr3, 4");
 135                 /* vr12 - vr15: lower 4 bits of each byte of (P + Pxy) */
 136                 asm volatile("vandi.b $vr12, $vr0, 0x0f");
 137                 asm volatile("vandi.b $vr13, $vr1, 0x0f");
 138                 asm volatile("vandi.b $vr14, $vr2, 0x0f");
 139                 asm volatile("vandi.b $vr15, $vr3, 0x0f");
 140                 /* lookup from pbmul[0] */
 141                 asm volatile("vshuf.b $vr12, $vr22, $vr22, $vr12");
 142                 asm volatile("vshuf.b $vr13, $vr22, $vr22, $vr13");
 143                 asm volatile("vshuf.b $vr14, $vr22, $vr22, $vr14");
 144                 asm volatile("vshuf.b $vr15, $vr22, $vr22, $vr15");
 145                 /* lookup from pbmul[16] */
 146                 asm volatile("vshuf.b $vr4, $vr23, $vr23, $vr4");
 147                 asm volatile("vshuf.b $vr5, $vr23, $vr23, $vr5");
 148                 asm volatile("vshuf.b $vr6, $vr23, $vr23, $vr6");
 149                 asm volatile("vshuf.b $vr7, $vr23, $vr23, $vr7");
 150                 /* vr4 - vr7: A(P + Pxy) */
 151                 asm volatile("vxor.v $vr4, $vr4, $vr12");
 152                 asm volatile("vxor.v $vr5, $vr5, $vr13");
 153                 asm volatile("vxor.v $vr6, $vr6, $vr14");
 154                 asm volatile("vxor.v $vr7, $vr7, $vr15");
 155
 156                 /* vr4 - vr7: A(P + Pxy) + B(Q + Qxy) = Dx */
 157                 asm volatile("vxor.v $vr4, $vr4, $vr16");
 158                 asm volatile("vxor.v $vr5, $vr5, $vr17");
 159                 asm volatile("vxor.v $vr6, $vr6, $vr18");
 160                 asm volatile("vxor.v $vr7, $vr7, $vr19");
 161                 asm volatile("vst $vr4, %0" : "=m" (dq[0]));
 162                 asm volatile("vst $vr5, %0" : "=m" (dq[16]));
 163                 asm volatile("vst $vr6, %0" : "=m" (dq[32]));
 164                 asm volatile("vst $vr7, %0" : "=m" (dq[48]));
 165
 166                 /* vr0 - vr3: P + Pxy + Dx = Dy */
 167                 asm volatile("vxor.v $vr0, $vr0, $vr4");
 168                 asm volatile("vxor.v $vr1, $vr1, $vr5");
 169                 asm volatile("vxor.v $vr2, $vr2, $vr6");
 170                 asm volatile("vxor.v $vr3, $vr3, $vr7");
 171                 asm volatile("vst $vr0, %0" : "=m" (dp[0]));
 172                 asm volatile("vst $vr1, %0" : "=m" (dp[16]));
 173                 asm volatile("vst $vr2, %0" : "=m" (dp[32]));
 174                 asm volatile("vst $vr3, %0" : "=m" (dp[48]));
 175
 176                 bytes -= 64;
 177                 p += 64;
 178                 q += 64;
 179                 dp += 64;
 180                 dq += 64;
 181         }
 182
 183         kernel_fpu_end();
 184 }
 185
 186 static void raid6_datap_recov_lsx(int disks, size_t bytes, int faila,
 187                                   void **ptrs)
 188 {
 189         u8 *p, *q, *dq;
 190         const u8 *qmul;         /* Q multiplier table */
 191
 192         p = (u8 *)ptrs[disks - 2];
 193         q = (u8 *)ptrs[disks - 1];
 194
 195         /*
 196          * Compute syndrome with zero for the missing data page
 197          * Use the dead data page as temporary storage for delta q
 198          */
 199         dq = (u8 *)ptrs[faila];
 200         ptrs[faila] = (void *)raid6_empty_zero_page;
 201         ptrs[disks - 1] = dq;
 202
 203         raid6_call.gen_syndrome(disks, bytes, ptrs);
 204
 205         /* Restore pointer table */
 206         ptrs[faila] = dq;
 207         ptrs[disks - 1] = q;
 208
 209         /* Now, pick the proper data tables */
 210         qmul  = raid6_vgfmul[raid6_gfinv[raid6_gfexp[faila]]];
 211
 212         kernel_fpu_begin();
 213
 214         /* vr22, vr23: qmul */
 215         asm volatile("vld $vr22, %0" : : "m" (qmul[0]));
 216         asm volatile("vld $vr23, %0" : : "m" (qmul[16]));
 217
 218         while (bytes) {
 219                 /* vr0 - vr3: P + Dx */
 220                 asm volatile("vld $vr0, %0" : : "m" (p[0]));
 221                 asm volatile("vld $vr1, %0" : : "m" (p[16]));
 222                 asm volatile("vld $vr2, %0" : : "m" (p[32]));
 223                 asm volatile("vld $vr3, %0" : : "m" (p[48]));
 224                 /* vr4 - vr7: Qx */
 225                 asm volatile("vld $vr4, %0" : : "m" (dq[0]));
 226                 asm volatile("vld $vr5, %0" : : "m" (dq[16]));
 227                 asm volatile("vld $vr6, %0" : : "m" (dq[32]));
 228                 asm volatile("vld $vr7, %0" : : "m" (dq[48]));
 229                 /* vr4 - vr7: Q + Qx */
 230                 asm volatile("vld $vr8, %0" : : "m" (q[0]));
 231                 asm volatile("vld $vr9, %0" : : "m" (q[16]));
 232                 asm volatile("vld $vr10, %0" : : "m" (q[32]));
 233                 asm volatile("vld $vr11, %0" : : "m" (q[48]));
 234                 asm volatile("vxor.v $vr4, $vr4, $vr8");
 235                 asm volatile("vxor.v $vr5, $vr5, $vr9");
 236                 asm volatile("vxor.v $vr6, $vr6, $vr10");
 237                 asm volatile("vxor.v $vr7, $vr7, $vr11");
 238
 239                 /* vr8 - vr11: higher 4 bits of each byte of (Q + Qx) */
 240                 asm volatile("vsrli.b $vr8, $vr4, 4");
 241                 asm volatile("vsrli.b $vr9, $vr5, 4");
 242                 asm volatile("vsrli.b $vr10, $vr6, 4");
 243                 asm volatile("vsrli.b $vr11, $vr7, 4");
 244                 /* vr4 - vr7: lower 4 bits of each byte of (Q + Qx) */
 245                 asm volatile("vandi.b $vr4, $vr4, 0x0f");
 246                 asm volatile("vandi.b $vr5, $vr5, 0x0f");
 247                 asm volatile("vandi.b $vr6, $vr6, 0x0f");
 248                 asm volatile("vandi.b $vr7, $vr7, 0x0f");
 249                 /* lookup from qmul[0] */
 250                 asm volatile("vshuf.b $vr4, $vr22, $vr22, $vr4");
 251                 asm volatile("vshuf.b $vr5, $vr22, $vr22, $vr5");
 252                 asm volatile("vshuf.b $vr6, $vr22, $vr22, $vr6");
 253                 asm volatile("vshuf.b $vr7, $vr22, $vr22, $vr7");
 254                 /* lookup from qmul[16] */
 255                 asm volatile("vshuf.b $vr8, $vr23, $vr23, $vr8");
 256                 asm volatile("vshuf.b $vr9, $vr23, $vr23, $vr9");
 257                 asm volatile("vshuf.b $vr10, $vr23, $vr23, $vr10");
 258                 asm volatile("vshuf.b $vr11, $vr23, $vr23, $vr11");
 259                 /* vr4 - vr7: qmul(Q + Qx) = Dx */
 260                 asm volatile("vxor.v $vr4, $vr4, $vr8");
 261                 asm volatile("vxor.v $vr5, $vr5, $vr9");
 262                 asm volatile("vxor.v $vr6, $vr6, $vr10");
 263                 asm volatile("vxor.v $vr7, $vr7, $vr11");
 264                 asm volatile("vst $vr4, %0" : "=m" (dq[0]));
 265                 asm volatile("vst $vr5, %0" : "=m" (dq[16]));
 266                 asm volatile("vst $vr6, %0" : "=m" (dq[32]));
 267                 asm volatile("vst $vr7, %0" : "=m" (dq[48]));
 268
 269                 /* vr0 - vr3: P + Dx + Dx = P */
 270                 asm volatile("vxor.v $vr0, $vr0, $vr4");
 271                 asm volatile("vxor.v $vr1, $vr1, $vr5");
 272                 asm volatile("vxor.v $vr2, $vr2, $vr6");
 273                 asm volatile("vxor.v $vr3, $vr3, $vr7");
 274                 asm volatile("vst $vr0, %0" : "=m" (p[0]));
 275                 asm volatile("vst $vr1, %0" : "=m" (p[16]));
 276                 asm volatile("vst $vr2, %0" : "=m" (p[32]));
 277                 asm volatile("vst $vr3, %0" : "=m" (p[48]));
 278
 279                 bytes -= 64;
 280                 p += 64;
 281                 q += 64;
 282                 dq += 64;
 283         }
 284
 285         kernel_fpu_end();
 286 }
 287
 288 const struct raid6_recov_calls raid6_recov_lsx = {
 289         .data2 = raid6_2data_recov_lsx,
 290         .datap = raid6_datap_recov_lsx,
 291         .valid = raid6_has_lsx,
 292         .name = "lsx",
 293         .priority = 1,
 294 };
 295 #endif /* CONFIG_CPU_HAS_LSX */
 296
 297 #ifdef CONFIG_CPU_HAS_LASX
 298 static int raid6_has_lasx(void)
 299 {
 300         return cpu_has_lasx;
 301 }
 302
 303 static void raid6_2data_recov_lasx(int disks, size_t bytes, int faila,
 304                                    int failb, void **ptrs)
 305 {
 306         u8 *p, *q, *dp, *dq;
 307         const u8 *pbmul;        /* P multiplier table for B data */
 308         const u8 *qmul;         /* Q multiplier table (for both) */
 309
 310         p = (u8 *)ptrs[disks - 2];
 311         q = (u8 *)ptrs[disks - 1];
 312
 313         /*
 314          * Compute syndrome with zero for the missing data pages
 315          * Use the dead data pages as temporary storage for
 316          * delta p and delta q
 317          */
 318         dp = (u8 *)ptrs[faila];
 319         ptrs[faila] = (void *)raid6_empty_zero_page;
 320         ptrs[disks - 2] = dp;
 321         dq = (u8 *)ptrs[failb];
 322         ptrs[failb] = (void *)raid6_empty_zero_page;
 323         ptrs[disks - 1] = dq;
 324
 325         raid6_call.gen_syndrome(disks, bytes, ptrs);
 326
 327         /* Restore pointer table */
 328         ptrs[faila] = dp;
 329         ptrs[failb] = dq;
 330         ptrs[disks - 2] = p;
 331         ptrs[disks - 1] = q;
 332
 333         /* Now, pick the proper data tables */
 334         pbmul = raid6_vgfmul[raid6_gfexi[failb - faila]];
 335         qmul  = raid6_vgfmul[raid6_gfinv[raid6_gfexp[faila] ^ raid6_gfexp[failb]]];
 336
 337         kernel_fpu_begin();
 338
 339         /*
 340          * xr20, xr21: qmul
 341          * xr22, xr23: pbmul
 342          */
 343         asm volatile("vld $vr20, %0" : : "m" (qmul[0]));
 344         asm volatile("vld $vr21, %0" : : "m" (qmul[16]));
 345         asm volatile("vld $vr22, %0" : : "m" (pbmul[0]));
 346         asm volatile("vld $vr23, %0" : : "m" (pbmul[16]));
 347         asm volatile("xvreplve0.q $xr20, $xr20");
 348         asm volatile("xvreplve0.q $xr21, $xr21");
 349         asm volatile("xvreplve0.q $xr22, $xr22");
 350         asm volatile("xvreplve0.q $xr23, $xr23");
 351
 352         while (bytes) {
 353                 /* xr0, xr1: Q */
 354                 asm volatile("xvld $xr0, %0" : : "m" (q[0]));
 355                 asm volatile("xvld $xr1, %0" : : "m" (q[32]));
 356                 /* xr0, xr1: Q + Qxy */
 357                 asm volatile("xvld $xr4, %0" : : "m" (dq[0]));
 358                 asm volatile("xvld $xr5, %0" : : "m" (dq[32]));
 359                 asm volatile("xvxor.v $xr0, $xr0, $xr4");
 360                 asm volatile("xvxor.v $xr1, $xr1, $xr5");
 361                 /* xr2, xr3: P */
 362                 asm volatile("xvld $xr2, %0" : : "m" (p[0]));
 363                 asm volatile("xvld $xr3, %0" : : "m" (p[32]));
 364                 /* xr2, xr3: P + Pxy */
 365                 asm volatile("xvld $xr4, %0" : : "m" (dp[0]));
 366                 asm volatile("xvld $xr5, %0" : : "m" (dp[32]));
 367                 asm volatile("xvxor.v $xr2, $xr2, $xr4");
 368                 asm volatile("xvxor.v $xr3, $xr3, $xr5");
 369
 370                 /* xr4, xr5: higher 4 bits of each byte of (Q + Qxy) */
 371                 asm volatile("xvsrli.b $xr4, $xr0, 4");
 372                 asm volatile("xvsrli.b $xr5, $xr1, 4");
 373                 /* xr0, xr1: lower 4 bits of each byte of (Q + Qxy) */
 374                 asm volatile("xvandi.b $xr0, $xr0, 0x0f");
 375                 asm volatile("xvandi.b $xr1, $xr1, 0x0f");
 376                 /* lookup from qmul[0] */
 377                 asm volatile("xvshuf.b $xr0, $xr20, $xr20, $xr0");
 378                 asm volatile("xvshuf.b $xr1, $xr20, $xr20, $xr1");
 379                 /* lookup from qmul[16] */
 380                 asm volatile("xvshuf.b $xr4, $xr21, $xr21, $xr4");
 381                 asm volatile("xvshuf.b $xr5, $xr21, $xr21, $xr5");
 382                 /* xr6, xr7: B(Q + Qxy) */
 383                 asm volatile("xvxor.v $xr6, $xr4, $xr0");
 384                 asm volatile("xvxor.v $xr7, $xr5, $xr1");
 385
 386                 /* xr4, xr5: higher 4 bits of each byte of (P + Pxy) */
 387                 asm volatile("xvsrli.b $xr4, $xr2, 4");
 388                 asm volatile("xvsrli.b $xr5, $xr3, 4");
 389                 /* xr0, xr1: lower 4 bits of each byte of (P + Pxy) */
 390                 asm volatile("xvandi.b $xr0, $xr2, 0x0f");
 391                 asm volatile("xvandi.b $xr1, $xr3, 0x0f");
 392                 /* lookup from pbmul[0] */
 393                 asm volatile("xvshuf.b $xr0, $xr22, $xr22, $xr0");
 394                 asm volatile("xvshuf.b $xr1, $xr22, $xr22, $xr1");
 395                 /* lookup from pbmul[16] */
 396                 asm volatile("xvshuf.b $xr4, $xr23, $xr23, $xr4");
 397                 asm volatile("xvshuf.b $xr5, $xr23, $xr23, $xr5");
 398                 /* xr0, xr1: A(P + Pxy) */
 399                 asm volatile("xvxor.v $xr0, $xr0, $xr4");
 400                 asm volatile("xvxor.v $xr1, $xr1, $xr5");
 401
 402                 /* xr0, xr1: A(P + Pxy) + B(Q + Qxy) = Dx */
 403                 asm volatile("xvxor.v $xr0, $xr0, $xr6");
 404                 asm volatile("xvxor.v $xr1, $xr1, $xr7");
 405
 406                 /* xr2, xr3: P + Pxy + Dx = Dy */
 407                 asm volatile("xvxor.v $xr2, $xr2, $xr0");
 408                 asm volatile("xvxor.v $xr3, $xr3, $xr1");
 409
 410                 asm volatile("xvst $xr0, %0" : "=m" (dq[0]));
 411                 asm volatile("xvst $xr1, %0" : "=m" (dq[32]));
 412                 asm volatile("xvst $xr2, %0" : "=m" (dp[0]));
 413                 asm volatile("xvst $xr3, %0" : "=m" (dp[32]));
 414
 415                 bytes -= 64;
 416                 p += 64;
 417                 q += 64;
 418                 dp += 64;
 419                 dq += 64;
 420         }
 421
 422         kernel_fpu_end();
 423 }
 424
 425 static void raid6_datap_recov_lasx(int disks, size_t bytes, int faila,
 426                                    void **ptrs)
 427 {
 428         u8 *p, *q, *dq;
 429         const u8 *qmul;         /* Q multiplier table */
 430
 431         p = (u8 *)ptrs[disks - 2];
 432         q = (u8 *)ptrs[disks - 1];
 433
 434         /*
 435          * Compute syndrome with zero for the missing data page
 436          * Use the dead data page as temporary storage for delta q
 437          */
 438         dq = (u8 *)ptrs[faila];
 439         ptrs[faila] = (void *)raid6_empty_zero_page;
 440         ptrs[disks - 1] = dq;
 441
 442         raid6_call.gen_syndrome(disks, bytes, ptrs);
 443
 444         /* Restore pointer table */
 445         ptrs[faila] = dq;
 446         ptrs[disks - 1] = q;
 447
 448         /* Now, pick the proper data tables */
 449         qmul  = raid6_vgfmul[raid6_gfinv[raid6_gfexp[faila]]];
 450
 451         kernel_fpu_begin();
 452
 453         /* xr22, xr23: qmul */
 454         asm volatile("vld $vr22, %0" : : "m" (qmul[0]));
 455         asm volatile("xvreplve0.q $xr22, $xr22");
 456         asm volatile("vld $vr23, %0" : : "m" (qmul[16]));
 457         asm volatile("xvreplve0.q $xr23, $xr23");
 458
 459         while (bytes) {
 460                 /* xr0, xr1: P + Dx */
 461                 asm volatile("xvld $xr0, %0" : : "m" (p[0]));
 462                 asm volatile("xvld $xr1, %0" : : "m" (p[32]));
 463                 /* xr2, xr3: Qx */
 464                 asm volatile("xvld $xr2, %0" : : "m" (dq[0]));
 465                 asm volatile("xvld $xr3, %0" : : "m" (dq[32]));
 466                 /* xr2, xr3: Q + Qx */
 467                 asm volatile("xvld $xr4, %0" : : "m" (q[0]));
 468                 asm volatile("xvld $xr5, %0" : : "m" (q[32]));
 469                 asm volatile("xvxor.v $xr2, $xr2, $xr4");
 470                 asm volatile("xvxor.v $xr3, $xr3, $xr5");
 471
 472                 /* xr4, xr5: higher 4 bits of each byte of (Q + Qx) */
 473                 asm volatile("xvsrli.b $xr4, $xr2, 4");
 474                 asm volatile("xvsrli.b $xr5, $xr3, 4");
 475                 /* xr2, xr3: lower 4 bits of each byte of (Q + Qx) */
 476                 asm volatile("xvandi.b $xr2, $xr2, 0x0f");
 477                 asm volatile("xvandi.b $xr3, $xr3, 0x0f");
 478                 /* lookup from qmul[0] */
 479                 asm volatile("xvshuf.b $xr2, $xr22, $xr22, $xr2");
 480                 asm volatile("xvshuf.b $xr3, $xr22, $xr22, $xr3");
 481                 /* lookup from qmul[16] */
 482                 asm volatile("xvshuf.b $xr4, $xr23, $xr23, $xr4");
 483                 asm volatile("xvshuf.b $xr5, $xr23, $xr23, $xr5");
 484                 /* xr2, xr3: qmul(Q + Qx) = Dx */
 485                 asm volatile("xvxor.v $xr2, $xr2, $xr4");
 486                 asm volatile("xvxor.v $xr3, $xr3, $xr5");
 487
 488                 /* xr0, xr1: P + Dx + Dx = P */
 489                 asm volatile("xvxor.v $xr0, $xr0, $xr2");
 490                 asm volatile("xvxor.v $xr1, $xr1, $xr3");
 491
 492                 asm volatile("xvst $xr2, %0" : "=m" (dq[0]));
 493                 asm volatile("xvst $xr3, %0" : "=m" (dq[32]));
 494                 asm volatile("xvst $xr0, %0" : "=m" (p[0]));
 495                 asm volatile("xvst $xr1, %0" : "=m" (p[32]));
 496
 497                 bytes -= 64;
 498                 p += 64;
 499                 q += 64;
 500                 dq += 64;
 501         }
 502
 503         kernel_fpu_end();
 504 }
 505
 506 const struct raid6_recov_calls raid6_recov_lasx = {
 507         .data2 = raid6_2data_recov_lasx,
 508         .datap = raid6_datap_recov_lasx,
 509         .valid = raid6_has_lasx,
 510         .name = "lasx",
 511         .priority = 2,
 512 };
 513 #endif /* CONFIG_CPU_HAS_LASX */