arch/powerpc/lib/copy_32.S

   1 /*
   2  * Memory copy functions for 32-bit PowerPC.
   3  *
   4  * Copyright (C) 1996-2005 Paul Mackerras.
   5  *
   6  * This program is free software; you can redistribute it and/or
   7  * modify it under the terms of the GNU General Public License
   8  * as published by the Free Software Foundation; either version
   9  * 2 of the License, or (at your option) any later version.
  10  */
  11 #include <asm/processor.h>
  12 #include <asm/cache.h>
  13 #include <asm/errno.h>
  14 #include <asm/ppc_asm.h>
  15
  16 #define COPY_16_BYTES           \
  17         lwz     r7,4(r4);       \
  18         lwz     r8,8(r4);       \
  19         lwz     r9,12(r4);      \
  20         lwzu    r10,16(r4);     \
  21         stw     r7,4(r6);       \
  22         stw     r8,8(r6);       \
  23         stw     r9,12(r6);      \
  24         stwu    r10,16(r6)
  25
  26 #define COPY_16_BYTES_WITHEX(n) \
  27 8 ## n ## 0:                    \
  28         lwz     r7,4(r4);       \
  29 8 ## n ## 1:                    \
  30         lwz     r8,8(r4);       \
  31 8 ## n ## 2:                    \
  32         lwz     r9,12(r4);      \
  33 8 ## n ## 3:                    \
  34         lwzu    r10,16(r4);     \
  35 8 ## n ## 4:                    \
  36         stw     r7,4(r6);       \
  37 8 ## n ## 5:                    \
  38         stw     r8,8(r6);       \
  39 8 ## n ## 6:                    \
  40         stw     r9,12(r6);      \
  41 8 ## n ## 7:                    \
  42         stwu    r10,16(r6)
  43
  44 #define COPY_16_BYTES_EXCODE(n)                 \
  45 9 ## n ## 0:                                    \
  46         addi    r5,r5,-(16 * n);                \
  47         b       104f;                           \
  48 9 ## n ## 1:                                    \
  49         addi    r5,r5,-(16 * n);                \
  50         b       105f;                           \
  51 .section __ex_table,"a";                        \
  52         .align  2;                              \
  53         .long   8 ## n ## 0b,9 ## n ## 0b;      \
  54         .long   8 ## n ## 1b,9 ## n ## 0b;      \
  55         .long   8 ## n ## 2b,9 ## n ## 0b;      \
  56         .long   8 ## n ## 3b,9 ## n ## 0b;      \
  57         .long   8 ## n ## 4b,9 ## n ## 1b;      \
  58         .long   8 ## n ## 5b,9 ## n ## 1b;      \
  59         .long   8 ## n ## 6b,9 ## n ## 1b;      \
  60         .long   8 ## n ## 7b,9 ## n ## 1b;      \
  61         .text
  62
  63         .text
  64         .stabs  "arch/powerpc/lib/",N_SO,0,0,0f
  65         .stabs  "copy_32.S",N_SO,0,0,0f
  66 0:
  67
  68 CACHELINE_BYTES = L1_CACHE_BYTES
  69 LG_CACHELINE_BYTES = L1_CACHE_SHIFT
  70 CACHELINE_MASK = (L1_CACHE_BYTES-1)
  71
  72 /*
  73  * Use dcbz on the complete cache lines in the destination
  74  * to set them to zero.  This requires that the destination
  75  * area is cacheable.  -- paulus
  76  */
  77 _GLOBAL(cacheable_memzero)
  78         mr      r5,r4
  79         li      r4,0
  80         addi    r6,r3,-4
  81         cmplwi  0,r5,4
  82         blt     7f
  83         stwu    r4,4(r6)
  84         beqlr
  85         andi.   r0,r6,3
  86         add     r5,r0,r5
  87         subf    r6,r0,r6
  88         clrlwi  r7,r6,32-LG_CACHELINE_BYTES
  89         add     r8,r7,r5
  90         srwi    r9,r8,LG_CACHELINE_BYTES
  91         addic.  r9,r9,-1        /* total number of complete cachelines */
  92         ble     2f
  93         xori    r0,r7,CACHELINE_MASK & ~3
  94         srwi.   r0,r0,2
  95         beq     3f
  96         mtctr   r0
  97 4:      stwu    r4,4(r6)
  98         bdnz    4b
  99 3:      mtctr   r9
 100         li      r7,4
 101 10:     dcbz    r7,r6
 102         addi    r6,r6,CACHELINE_BYTES
 103         bdnz    10b
 104         clrlwi  r5,r8,32-LG_CACHELINE_BYTES
 105         addi    r5,r5,4
 106 2:      srwi    r0,r5,2
 107         mtctr   r0
 108         bdz     6f
 109 1:      stwu    r4,4(r6)
 110         bdnz    1b
 111 6:      andi.   r5,r5,3
 112 7:      cmpwi   0,r5,0
 113         beqlr
 114         mtctr   r5
 115         addi    r6,r6,3
 116 8:      stbu    r4,1(r6)
 117         bdnz    8b
 118         blr
 119
 120 _GLOBAL(memset)
 121         rlwimi  r4,r4,8,16,23
 122         rlwimi  r4,r4,16,0,15
 123         addi    r6,r3,-4
 124         cmplwi  0,r5,4
 125         blt     7f
 126         stwu    r4,4(r6)
 127         beqlr
 128         andi.   r0,r6,3
 129         add     r5,r0,r5
 130         subf    r6,r0,r6
 131         srwi    r0,r5,2
 132         mtctr   r0
 133         bdz     6f
 134 1:      stwu    r4,4(r6)
 135         bdnz    1b
 136 6:      andi.   r5,r5,3
 137 7:      cmpwi   0,r5,0
 138         beqlr
 139         mtctr   r5
 140         addi    r6,r6,3
 141 8:      stbu    r4,1(r6)
 142         bdnz    8b
 143         blr
 144
 145 /*
 146  * This version uses dcbz on the complete cache lines in the
 147  * destination area to reduce memory traffic.  This requires that
 148  * the destination area is cacheable.
 149  * We only use this version if the source and dest don't overlap.
 150  * -- paulus.
 151  */
 152 _GLOBAL(cacheable_memcpy)
 153         add     r7,r3,r5                /* test if the src & dst overlap */
 154         add     r8,r4,r5
 155         cmplw   0,r4,r7
 156         cmplw   1,r3,r8
 157         crand   0,0,4                   /* cr0.lt &= cr1.lt */
 158         blt     memcpy                  /* if regions overlap */
 159
 160         addi    r4,r4,-4
 161         addi    r6,r3,-4
 162         neg     r0,r3
 163         andi.   r0,r0,CACHELINE_MASK    /* # bytes to start of cache line */
 164         beq     58f
 165
 166         cmplw   0,r5,r0                 /* is this more than total to do? */
 167         blt     63f                     /* if not much to do */
 168         andi.   r8,r0,3                 /* get it word-aligned first */
 169         subf    r5,r0,r5
 170         mtctr   r8
 171         beq+    61f
 172 70:     lbz     r9,4(r4)                /* do some bytes */
 173         stb     r9,4(r6)
 174         addi    r4,r4,1
 175         addi    r6,r6,1
 176         bdnz    70b
 177 61:     srwi.   r0,r0,2
 178         mtctr   r0
 179         beq     58f
 180 72:     lwzu    r9,4(r4)                /* do some words */
 181         stwu    r9,4(r6)
 182         bdnz    72b
 183
 184 58:     srwi.   r0,r5,LG_CACHELINE_BYTES /* # complete cachelines */
 185         clrlwi  r5,r5,32-LG_CACHELINE_BYTES
 186         li      r11,4
 187         mtctr   r0
 188         beq     63f
 189 53:
 190         dcbz    r11,r6
 191         COPY_16_BYTES
 192 #if L1_CACHE_BYTES >= 32
 193         COPY_16_BYTES
 194 #if L1_CACHE_BYTES >= 64
 195         COPY_16_BYTES
 196         COPY_16_BYTES
 197 #if L1_CACHE_BYTES >= 128
 198         COPY_16_BYTES
 199         COPY_16_BYTES
 200         COPY_16_BYTES
 201         COPY_16_BYTES
 202 #endif
 203 #endif
 204 #endif
 205         bdnz    53b
 206
 207 63:     srwi.   r0,r5,2
 208         mtctr   r0
 209         beq     64f
 210 30:     lwzu    r0,4(r4)
 211         stwu    r0,4(r6)
 212         bdnz    30b
 213
 214 64:     andi.   r0,r5,3
 215         mtctr   r0
 216         beq+    65f
 217 40:     lbz     r0,4(r4)
 218         stb     r0,4(r6)
 219         addi    r4,r4,1
 220         addi    r6,r6,1
 221         bdnz    40b
 222 65:     blr
 223
 224 _GLOBAL(memmove)
 225         cmplw   0,r3,r4
 226         bgt     backwards_memcpy
 227         /* fall through */
 228
 229 _GLOBAL(memcpy)
 230         srwi.   r7,r5,3
 231         addi    r6,r3,-4
 232         addi    r4,r4,-4
 233         beq     2f                      /* if less than 8 bytes to do */
 234         andi.   r0,r6,3                 /* get dest word aligned */
 235         mtctr   r7
 236         bne     5f
 237 1:      lwz     r7,4(r4)
 238         lwzu    r8,8(r4)
 239         stw     r7,4(r6)
 240         stwu    r8,8(r6)
 241         bdnz    1b
 242         andi.   r5,r5,7
 243 2:      cmplwi  0,r5,4
 244         blt     3f
 245         lwzu    r0,4(r4)
 246         addi    r5,r5,-4
 247         stwu    r0,4(r6)
 248 3:      cmpwi   0,r5,0
 249         beqlr
 250         mtctr   r5
 251         addi    r4,r4,3
 252         addi    r6,r6,3
 253 4:      lbzu    r0,1(r4)
 254         stbu    r0,1(r6)
 255         bdnz    4b
 256         blr
 257 5:      subfic  r0,r0,4
 258         mtctr   r0
 259 6:      lbz     r7,4(r4)
 260         addi    r4,r4,1
 261         stb     r7,4(r6)
 262         addi    r6,r6,1
 263         bdnz    6b
 264         subf    r5,r0,r5
 265         rlwinm. r7,r5,32-3,3,31
 266         beq     2b
 267         mtctr   r7
 268         b       1b
 269
 270 _GLOBAL(backwards_memcpy)
 271         rlwinm. r7,r5,32-3,3,31         /* r0 = r5 >> 3 */
 272         add     r6,r3,r5
 273         add     r4,r4,r5
 274         beq     2f
 275         andi.   r0,r6,3
 276         mtctr   r7
 277         bne     5f
 278 1:      lwz     r7,-4(r4)
 279         lwzu    r8,-8(r4)
 280         stw     r7,-4(r6)
 281         stwu    r8,-8(r6)
 282         bdnz    1b
 283         andi.   r5,r5,7
 284 2:      cmplwi  0,r5,4
 285         blt     3f
 286         lwzu    r0,-4(r4)
 287         subi    r5,r5,4
 288         stwu    r0,-4(r6)
 289 3:      cmpwi   0,r5,0
 290         beqlr
 291         mtctr   r5
 292 4:      lbzu    r0,-1(r4)
 293         stbu    r0,-1(r6)
 294         bdnz    4b
 295         blr
 296 5:      mtctr   r0
 297 6:      lbzu    r7,-1(r4)
 298         stbu    r7,-1(r6)
 299         bdnz    6b
 300         subf    r5,r0,r5
 301         rlwinm. r7,r5,32-3,3,31
 302         beq     2b
 303         mtctr   r7
 304         b       1b
 305
 306 _GLOBAL(__copy_tofrom_user)
 307         addi    r4,r4,-4
 308         addi    r6,r3,-4
 309         neg     r0,r3
 310         andi.   r0,r0,CACHELINE_MASK    /* # bytes to start of cache line */
 311         beq     58f
 312
 313         cmplw   0,r5,r0                 /* is this more than total to do? */
 314         blt     63f                     /* if not much to do */
 315         andi.   r8,r0,3                 /* get it word-aligned first */
 316         mtctr   r8
 317         beq+    61f
 318 70:     lbz     r9,4(r4)                /* do some bytes */
 319 71:     stb     r9,4(r6)
 320         addi    r4,r4,1
 321         addi    r6,r6,1
 322         bdnz    70b
 323 61:     subf    r5,r0,r5
 324         srwi.   r0,r0,2
 325         mtctr   r0
 326         beq     58f
 327 72:     lwzu    r9,4(r4)                /* do some words */
 328 73:     stwu    r9,4(r6)
 329         bdnz    72b
 330
 331         .section __ex_table,"a"
 332         .align  2
 333         .long   70b,100f
 334         .long   71b,101f
 335         .long   72b,102f
 336         .long   73b,103f
 337         .text
 338
 339 58:     srwi.   r0,r5,LG_CACHELINE_BYTES /* # complete cachelines */
 340         clrlwi  r5,r5,32-LG_CACHELINE_BYTES
 341         li      r11,4
 342         beq     63f
 343
 344         /* Here we decide how far ahead to prefetch the source */
 345         li      r3,4
 346         cmpwi   r0,1
 347         li      r7,0
 348         ble     114f
 349         li      r7,1
 350 #if MAX_COPY_PREFETCH > 1
 351         /* Heuristically, for large transfers we prefetch
 352            MAX_COPY_PREFETCH cachelines ahead.  For small transfers
 353            we prefetch 1 cacheline ahead. */
 354         cmpwi   r0,MAX_COPY_PREFETCH
 355         ble     112f
 356         li      r7,MAX_COPY_PREFETCH
 357 112:    mtctr   r7
 358 111:    dcbt    r3,r4
 359         addi    r3,r3,CACHELINE_BYTES
 360         bdnz    111b
 361 #else
 362         dcbt    r3,r4
 363         addi    r3,r3,CACHELINE_BYTES
 364 #endif /* MAX_COPY_PREFETCH > 1 */
 365
 366 114:    subf    r8,r7,r0
 367         mr      r0,r7
 368         mtctr   r8
 369
 370 53:     dcbt    r3,r4
 371 54:     dcbz    r11,r6
 372         .section __ex_table,"a"
 373         .align  2
 374         .long   54b,105f
 375         .text
 376 /* the main body of the cacheline loop */
 377         COPY_16_BYTES_WITHEX(0)
 378 #if L1_CACHE_BYTES >= 32
 379         COPY_16_BYTES_WITHEX(1)
 380 #if L1_CACHE_BYTES >= 64
 381         COPY_16_BYTES_WITHEX(2)
 382         COPY_16_BYTES_WITHEX(3)
 383 #if L1_CACHE_BYTES >= 128
 384         COPY_16_BYTES_WITHEX(4)
 385         COPY_16_BYTES_WITHEX(5)
 386         COPY_16_BYTES_WITHEX(6)
 387         COPY_16_BYTES_WITHEX(7)
 388 #endif
 389 #endif
 390 #endif
 391         bdnz    53b
 392         cmpwi   r0,0
 393         li      r3,4
 394         li      r7,0
 395         bne     114b
 396
 397 63:     srwi.   r0,r5,2
 398         mtctr   r0
 399         beq     64f
 400 30:     lwzu    r0,4(r4)
 401 31:     stwu    r0,4(r6)
 402         bdnz    30b
 403
 404 64:     andi.   r0,r5,3
 405         mtctr   r0
 406         beq+    65f
 407 40:     lbz     r0,4(r4)
 408 41:     stb     r0,4(r6)
 409         addi    r4,r4,1
 410         addi    r6,r6,1
 411         bdnz    40b
 412 65:     li      r3,0
 413         blr
 414
 415 /* read fault, initial single-byte copy */
 416 100:    li      r9,0
 417         b       90f
 418 /* write fault, initial single-byte copy */
 419 101:    li      r9,1
 420 90:     subf    r5,r8,r5
 421         li      r3,0
 422         b       99f
 423 /* read fault, initial word copy */
 424 102:    li      r9,0
 425         b       91f
 426 /* write fault, initial word copy */
 427 103:    li      r9,1
 428 91:     li      r3,2
 429         b       99f
 430
 431 /*
 432  * this stuff handles faults in the cacheline loop and branches to either
 433  * 104f (if in read part) or 105f (if in write part), after updating r5
 434  */
 435         COPY_16_BYTES_EXCODE(0)
 436 #if L1_CACHE_BYTES >= 32
 437         COPY_16_BYTES_EXCODE(1)
 438 #if L1_CACHE_BYTES >= 64
 439         COPY_16_BYTES_EXCODE(2)
 440         COPY_16_BYTES_EXCODE(3)
 441 #if L1_CACHE_BYTES >= 128
 442         COPY_16_BYTES_EXCODE(4)
 443         COPY_16_BYTES_EXCODE(5)
 444         COPY_16_BYTES_EXCODE(6)
 445         COPY_16_BYTES_EXCODE(7)
 446 #endif
 447 #endif
 448 #endif
 449
 450 /* read fault in cacheline loop */
 451 104:    li      r9,0
 452         b       92f
 453 /* fault on dcbz (effectively a write fault) */
 454 /* or write fault in cacheline loop */
 455 105:    li      r9,1
 456 92:     li      r3,LG_CACHELINE_BYTES
 457         mfctr   r8
 458         add     r0,r0,r8
 459         b       106f
 460 /* read fault in final word loop */
 461 108:    li      r9,0
 462         b       93f
 463 /* write fault in final word loop */
 464 109:    li      r9,1
 465 93:     andi.   r5,r5,3
 466         li      r3,2
 467         b       99f
 468 /* read fault in final byte loop */
 469 110:    li      r9,0
 470         b       94f
 471 /* write fault in final byte loop */
 472 111:    li      r9,1
 473 94:     li      r5,0
 474         li      r3,0
 475 /*
 476  * At this stage the number of bytes not copied is
 477  * r5 + (ctr << r3), and r9 is 0 for read or 1 for write.
 478  */
 479 99:     mfctr   r0
 480 106:    slw     r3,r0,r3
 481         add.    r3,r3,r5
 482         beq     120f                    /* shouldn't happen */
 483         cmpwi   0,r9,0
 484         bne     120f
 485 /* for a read fault, first try to continue the copy one byte at a time */
 486         mtctr   r3
 487 130:    lbz     r0,4(r4)
 488 131:    stb     r0,4(r6)
 489         addi    r4,r4,1
 490         addi    r6,r6,1
 491         bdnz    130b
 492 /* then clear out the destination: r3 bytes starting at 4(r6) */
 493 132:    mfctr   r3
 494         srwi.   r0,r3,2
 495         li      r9,0
 496         mtctr   r0
 497         beq     113f
 498 112:    stwu    r9,4(r6)
 499         bdnz    112b
 500 113:    andi.   r0,r3,3
 501         mtctr   r0
 502         beq     120f
 503 114:    stb     r9,4(r6)
 504         addi    r6,r6,1
 505         bdnz    114b
 506 120:    blr
 507
 508         .section __ex_table,"a"
 509         .align  2
 510         .long   30b,108b
 511         .long   31b,109b
 512         .long   40b,110b
 513         .long   41b,111b
 514         .long   130b,132b
 515         .long   131b,120b
 516         .long   112b,120b
 517         .long   114b,120b
 518         .text