powerpc/filter_vsx_intrinsics.c

   1 /* filter_vsx_intrinsics.c - PowerPC optimised filter functions
   2  *
   3  * Copyright (c) 2018 Cosmin Truta
   4  * Copyright (c) 2017 Glenn Randers-Pehrson
   5  * Written by Vadim Barkov, 2017.
   6  *
   7  * This code is released under the libpng license.
   8  * For conditions of distribution and use, see the disclaimer
   9  * and license in png.h
  10  */
  11
  12 #include <stdio.h>
  13 #include <stdint.h>
  14 #include "../pngpriv.h"
  15
  16 #ifdef PNG_READ_SUPPORTED
  17
  18 /* This code requires -maltivec and -mvsx on the command line: */
  19 #if PNG_POWERPC_VSX_IMPLEMENTATION == 1 /* intrinsics code from pngpriv.h */
  20
  21 #include <altivec.h>
  22
  23 #if PNG_POWERPC_VSX_OPT > 0
  24
  25 #ifndef __VSX__
  26 #  error "This code requires VSX support (POWER7 and later). Please provide -mvsx compiler flag."
  27 #endif
  28
  29 #define vec_ld_unaligned(vec,data) vec = vec_vsx_ld(0,data)
  30 #define vec_st_unaligned(vec,data) vec_vsx_st(vec,0,data)
  31
  32
  33 /* Functions in this file look at most 3 pixels (a,b,c) to predict the 4th (d).
  34  * They're positioned like this:
  35  *    prev:  c b
  36  *    row:   a d
  37  * The Sub filter predicts d=a, Avg d=(a+b)/2, and Paeth predicts d to be
  38  * whichever of a, b, or c is closest to p=a+b-c.
  39  * ( this is taken from ../intel/filter_sse2_intrinsics.c )
  40  */
  41
  42 #define vsx_declare_common_vars(row_info,row,prev_row,offset) \
  43    png_byte i;\
  44    png_bytep rp = row + offset;\
  45    png_const_bytep pp = prev_row;\
  46    size_t unaligned_top = 16 - (((size_t)rp % 16));\
  47    size_t istop;\
  48    if(unaligned_top == 16)\
  49       unaligned_top = 0;\
  50    istop = row_info->rowbytes;\
  51    if((unaligned_top < istop))\
  52       istop -= unaligned_top;\
  53    else{\
  54       unaligned_top = istop;\
  55       istop = 0;\
  56    }
  57
  58 void png_read_filter_row_up_vsx(png_row_infop row_info, png_bytep row,
  59                                 png_const_bytep prev_row)
  60 {
  61    vector unsigned char rp_vec;
  62    vector unsigned char pp_vec;
  63    vsx_declare_common_vars(row_info,row,prev_row,0)
  64
  65    /* Altivec operations require 16-byte aligned data
  66     * but input can be unaligned. So we calculate
  67     * unaligned part as usual.
  68     */
  69    for (i = 0; i < unaligned_top; i++)
  70    {
  71       *rp = (png_byte)(((int)(*rp) + (int)(*pp++)) & 0xff);
  72       rp++;
  73    }
  74
  75    /* Using SIMD while we can */
  76    while( istop >= 16 )
  77    {
  78       rp_vec = vec_ld(0,rp);
  79       vec_ld_unaligned(pp_vec,pp);
  80
  81       rp_vec = vec_add(rp_vec,pp_vec);
  82
  83       vec_st(rp_vec,0,rp);
  84
  85       pp += 16;
  86       rp += 16;
  87       istop -= 16;
  88    }
  89
  90    if(istop > 0)
  91    {
  92       /* If byte count of row is not divisible by 16
  93        * we will process remaining part as usual
  94        */
  95       for (i = 0; i < istop; i++)
  96       {
  97          *rp = (png_byte)(((int)(*rp) + (int)(*pp++)) & 0xff);
  98          rp++;
  99       }
 100 }
 101
 102 }
 103
 104 static const vector unsigned char VSX_LEFTSHIFTED1_4 = {16,16,16,16, 0, 1, 2, 3,16,16,16,16,16,16,16,16};
 105 static const vector unsigned char VSX_LEFTSHIFTED2_4 = {16,16,16,16,16,16,16,16, 4, 5, 6, 7,16,16,16,16};
 106 static const vector unsigned char VSX_LEFTSHIFTED3_4 = {16,16,16,16,16,16,16,16,16,16,16,16, 8, 9,10,11};
 107
 108 static const vector unsigned char VSX_LEFTSHIFTED1_3 = {16,16,16, 0, 1, 2,16,16,16,16,16,16,16,16,16,16};
 109 static const vector unsigned char VSX_LEFTSHIFTED2_3 = {16,16,16,16,16,16, 3, 4, 5,16,16,16,16,16,16,16};
 110 static const vector unsigned char VSX_LEFTSHIFTED3_3 = {16,16,16,16,16,16,16,16,16, 6, 7, 8,16,16,16,16};
 111 static const vector unsigned char VSX_LEFTSHIFTED4_3 = {16,16,16,16,16,16,16,16,16,16,16,16, 9,10,11,16};
 112
 113 static const vector unsigned char VSX_NOT_SHIFTED1_4 = {16,16,16,16, 4, 5, 6, 7,16,16,16,16,16,16,16,16};
 114 static const vector unsigned char VSX_NOT_SHIFTED2_4 = {16,16,16,16,16,16,16,16, 8, 9,10,11,16,16,16,16};
 115 static const vector unsigned char VSX_NOT_SHIFTED3_4 = {16,16,16,16,16,16,16,16,16,16,16,16,12,13,14,15};
 116
 117 static const vector unsigned char VSX_NOT_SHIFTED1_3 = {16,16,16, 3, 4, 5,16,16,16,16,16,16,16,16,16,16};
 118 static const vector unsigned char VSX_NOT_SHIFTED2_3 = {16,16,16,16,16,16, 6, 7, 8,16,16,16,16,16,16,16};
 119 static const vector unsigned char VSX_NOT_SHIFTED3_3 = {16,16,16,16,16,16,16,16,16, 9,10,11,16,16,16,16};
 120 static const vector unsigned char VSX_NOT_SHIFTED4_3 = {16,16,16,16,16,16,16,16,16,16,16,16,12,13,14,16};
 121
 122 static const vector unsigned char VSX_CHAR_ZERO = {0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0};
 123 #ifdef __LITTLE_ENDIAN__
 124
 125 static const vector unsigned char VSX_CHAR_TO_SHORT1_4 = { 4,16, 5,16, 6,16, 7,16,16,16,16,16,16,16,16,16};
 126 static const vector unsigned char VSX_CHAR_TO_SHORT2_4 = { 8,16, 9,16,10,16,11,16,16,16,16,16,16,16,16,16};
 127 static const vector unsigned char VSX_CHAR_TO_SHORT3_4 = {12,16,13,16,14,16,15,16,16,16,16,16,16,16,16,16};
 128
 129 static const vector unsigned char VSX_SHORT_TO_CHAR1_4 = {16,16,16,16, 0, 2, 4, 6,16,16,16,16,16,16,16,16};
 130 static const vector unsigned char VSX_SHORT_TO_CHAR2_4 = {16,16,16,16,16,16,16,16, 0, 2, 4, 6,16,16,16,16};
 131 static const vector unsigned char VSX_SHORT_TO_CHAR3_4 = {16,16,16,16,16,16,16,16,16,16,16,16, 0, 2, 4, 6};
 132
 133 static const vector unsigned char VSX_CHAR_TO_SHORT1_3 = { 3,16, 4,16, 5,16,16,16,16,16,16,16,16,16,16,16};
 134 static const vector unsigned char VSX_CHAR_TO_SHORT2_3 = { 6,16, 7,16, 8,16,16,16,16,16,16,16,16,16,16,16};
 135 static const vector unsigned char VSX_CHAR_TO_SHORT3_3 = { 9,16,10,16,11,16,16,16,16,16,16,16,16,16,16,16};
 136 static const vector unsigned char VSX_CHAR_TO_SHORT4_3 = {12,16,13,16,14,16,16,16,16,16,16,16,16,16,16,16};
 137
 138 static const vector unsigned char VSX_SHORT_TO_CHAR1_3 = {16,16,16, 0, 2, 4,16,16,16,16,16,16,16,16,16,16};
 139 static const vector unsigned char VSX_SHORT_TO_CHAR2_3 = {16,16,16,16,16,16, 0, 2, 4,16,16,16,16,16,16,16};
 140 static const vector unsigned char VSX_SHORT_TO_CHAR3_3 = {16,16,16,16,16,16,16,16,16, 0, 2, 4,16,16,16,16};
 141 static const vector unsigned char VSX_SHORT_TO_CHAR4_3 = {16,16,16,16,16,16,16,16,16,16,16,16, 0, 2, 4,16};
 142
 143 #elif defined(__BIG_ENDIAN__)
 144
 145 static const vector unsigned char VSX_CHAR_TO_SHORT1_4 = {16, 4,16, 5,16, 6,16, 7,16,16,16,16,16,16,16,16};
 146 static const vector unsigned char VSX_CHAR_TO_SHORT2_4 = {16, 8,16, 9,16,10,16,11,16,16,16,16,16,16,16,16};
 147 static const vector unsigned char VSX_CHAR_TO_SHORT3_4 = {16,12,16,13,16,14,16,15,16,16,16,16,16,16,16,16};
 148
 149 static const vector unsigned char VSX_SHORT_TO_CHAR1_4 = {16,16,16,16, 1, 3, 5, 7,16,16,16,16,16,16,16,16};
 150 static const vector unsigned char VSX_SHORT_TO_CHAR2_4 = {16,16,16,16,16,16,16,16, 1, 3, 5, 7,16,16,16,16};
 151 static const vector unsigned char VSX_SHORT_TO_CHAR3_4 = {16,16,16,16,16,16,16,16,16,16,16,16, 1, 3, 5, 7};
 152
 153 static const vector unsigned char VSX_CHAR_TO_SHORT1_3 = {16, 3,16, 4,16, 5,16,16,16,16,16,16,16,16,16,16};
 154 static const vector unsigned char VSX_CHAR_TO_SHORT2_3 = {16, 6,16, 7,16, 8,16,16,16,16,16,16,16,16,16,16};
 155 static const vector unsigned char VSX_CHAR_TO_SHORT3_3 = {16, 9,16,10,16,11,16,16,16,16,16,16,16,16,16,16};
 156 static const vector unsigned char VSX_CHAR_TO_SHORT4_3 = {16,12,16,13,16,14,16,16,16,16,16,16,16,16,16,16};
 157
 158 static const vector unsigned char VSX_SHORT_TO_CHAR1_3 = {16,16,16, 1, 3, 5,16,16,16,16,16,16,16,16,16,16};
 159 static const vector unsigned char VSX_SHORT_TO_CHAR2_3 = {16,16,16,16,16,16, 1, 3, 5,16,16,16,16,16,16,16};
 160 static const vector unsigned char VSX_SHORT_TO_CHAR3_3 = {16,16,16,16,16,16,16,16,16, 1, 3, 5,16,16,16,16};
 161 static const vector unsigned char VSX_SHORT_TO_CHAR4_3 = {16,16,16,16,16,16,16,16,16,16,16,16, 1, 3, 5,16};
 162
 163 #endif
 164
 165 #define vsx_char_to_short(vec,offset,bpp) (vector unsigned short)vec_perm((vec),VSX_CHAR_ZERO,VSX_CHAR_TO_SHORT##offset##_##bpp)
 166 #define vsx_short_to_char(vec,offset,bpp) vec_perm(((vector unsigned char)(vec)),VSX_CHAR_ZERO,VSX_SHORT_TO_CHAR##offset##_##bpp)
 167
 168 #ifdef PNG_USE_ABS
 169 #  define vsx_abs(number) abs(number)
 170 #else
 171 #  define vsx_abs(number) (number > 0) ? (number) : -(number)
 172 #endif
 173
 174 void png_read_filter_row_sub4_vsx(png_row_infop row_info, png_bytep row,
 175                                   png_const_bytep prev_row)
 176 {
 177    png_byte bpp = 4;
 178
 179    vector unsigned char rp_vec;
 180    vector unsigned char part_vec;
 181
 182    vsx_declare_common_vars(row_info,row,prev_row,bpp)
 183
 184    PNG_UNUSED(pp)
 185
 186    /* Altivec operations require 16-byte aligned data
 187     * but input can be unaligned. So we calculate
 188     * unaligned part as usual.
 189     */
 190    for (i = 0; i < unaligned_top; i++)
 191    {
 192       *rp = (png_byte)(((int)(*rp) + (int)(*(rp-bpp))) & 0xff);
 193       rp++;
 194    }
 195
 196    /* Using SIMD while we can */
 197    while( istop >= 16 )
 198    {
 199       for(i=0;i < bpp ; i++)
 200       {
 201          *rp = (png_byte)(((int)(*rp) + (int)(*(rp-bpp))) & 0xff);
 202          rp++;
 203       }
 204       rp -= bpp;
 205
 206       rp_vec = vec_ld(0,rp);
 207       part_vec = vec_perm(rp_vec,VSX_CHAR_ZERO,VSX_LEFTSHIFTED1_4);
 208       rp_vec = vec_add(rp_vec,part_vec);
 209
 210       part_vec = vec_perm(rp_vec,VSX_CHAR_ZERO,VSX_LEFTSHIFTED2_4);
 211       rp_vec = vec_add(rp_vec,part_vec);
 212
 213       part_vec = vec_perm(rp_vec,VSX_CHAR_ZERO,VSX_LEFTSHIFTED3_4);
 214       rp_vec = vec_add(rp_vec,part_vec);
 215
 216       vec_st(rp_vec,0,rp);
 217
 218       rp += 16;
 219       istop -= 16;
 220    }
 221
 222    if(istop > 0)
 223       for (i = 0; i < istop % 16; i++)
 224       {
 225          *rp = (png_byte)(((int)(*rp) + (int)(*(rp - bpp))) & 0xff);
 226          rp++;
 227       }
 228
 229 }
 230
 231 void png_read_filter_row_sub3_vsx(png_row_infop row_info, png_bytep row,
 232                                   png_const_bytep prev_row)
 233 {
 234    png_byte bpp = 3;
 235
 236    vector unsigned char rp_vec;
 237    vector unsigned char part_vec;
 238
 239    vsx_declare_common_vars(row_info,row,prev_row,bpp)
 240
 241    PNG_UNUSED(pp)
 242
 243    /* Altivec operations require 16-byte aligned data
 244     * but input can be unaligned. So we calculate
 245     * unaligned part as usual.
 246     */
 247    for (i = 0; i < unaligned_top; i++)
 248    {
 249       *rp = (png_byte)(((int)(*rp) + (int)(*(rp-bpp))) & 0xff);
 250       rp++;
 251    }
 252
 253    /* Using SIMD while we can */
 254    while( istop >= 16 )
 255    {
 256       for(i=0;i < bpp ; i++)
 257       {
 258          *rp = (png_byte)(((int)(*rp) + (int)(*(rp-bpp))) & 0xff);
 259          rp++;
 260       }
 261       rp -= bpp;
 262
 263       rp_vec = vec_ld(0,rp);
 264       part_vec = vec_perm(rp_vec,VSX_CHAR_ZERO,VSX_LEFTSHIFTED1_3);
 265       rp_vec = vec_add(rp_vec,part_vec);
 266
 267       part_vec = vec_perm(rp_vec,VSX_CHAR_ZERO,VSX_LEFTSHIFTED2_3);
 268       rp_vec = vec_add(rp_vec,part_vec);
 269
 270       part_vec = vec_perm(rp_vec,VSX_CHAR_ZERO,VSX_LEFTSHIFTED3_3);
 271       rp_vec = vec_add(rp_vec,part_vec);
 272
 273       part_vec = vec_perm(rp_vec,VSX_CHAR_ZERO,VSX_LEFTSHIFTED4_3);
 274       rp_vec = vec_add(rp_vec,part_vec);
 275
 276       vec_st(rp_vec,0,rp);
 277       rp += 15;
 278       istop -= 16;
 279
 280       /* Since 16 % bpp = 16 % 3 = 1, last element of array must
 281        * be proceeded manually
 282        */
 283       *rp = (png_byte)(((int)(*rp) + (int)(*(rp-bpp))) & 0xff);
 284       rp++;
 285    }
 286
 287    if(istop > 0)
 288       for (i = 0; i < istop % 16; i++)
 289       {
 290          *rp = (png_byte)(((int)(*rp) + (int)(*(rp-bpp))) & 0xff);
 291          rp++;
 292       }
 293 }
 294
 295 void png_read_filter_row_avg4_vsx(png_row_infop row_info, png_bytep row,
 296                                   png_const_bytep prev_row)
 297 {
 298    png_byte bpp = 4;
 299
 300    vector unsigned char rp_vec;
 301    vector unsigned char pp_vec;
 302    vector unsigned char pp_part_vec;
 303    vector unsigned char rp_part_vec;
 304    vector unsigned char avg_vec;
 305
 306    vsx_declare_common_vars(row_info,row,prev_row,bpp)
 307    rp -= bpp;
 308    if(istop >= bpp)
 309       istop -= bpp;
 310
 311    for (i = 0; i < bpp; i++)
 312    {
 313       *rp = (png_byte)(((int)(*rp) +
 314          ((int)(*pp++) / 2 )) & 0xff);
 315
 316       rp++;
 317    }
 318
 319    /* Altivec operations require 16-byte aligned data
 320     * but input can be unaligned. So we calculate
 321     * unaligned part as usual.
 322     */
 323    for (i = 0; i < unaligned_top; i++)
 324    {
 325       *rp = (png_byte)(((int)(*rp) +
 326          (int)(*pp++ + *(rp-bpp)) / 2 ) & 0xff);
 327
 328       rp++;
 329    }
 330
 331    /* Using SIMD while we can */
 332    while( istop >= 16 )
 333    {
 334       for(i=0;i < bpp ; i++)
 335       {
 336          *rp = (png_byte)(((int)(*rp) +
 337             (int)(*pp++ + *(rp-bpp)) / 2 ) & 0xff);
 338
 339          rp++;
 340       }
 341       rp -= bpp;
 342       pp -= bpp;
 343
 344       vec_ld_unaligned(pp_vec,pp);
 345       rp_vec = vec_ld(0,rp);
 346
 347       rp_part_vec = vec_perm(rp_vec,VSX_CHAR_ZERO,VSX_LEFTSHIFTED1_4);
 348       pp_part_vec = vec_perm(pp_vec,VSX_CHAR_ZERO,VSX_NOT_SHIFTED1_4);
 349       avg_vec = vec_avg(rp_part_vec,pp_part_vec);
 350       avg_vec = vec_sub(avg_vec, vec_and(vec_xor(rp_part_vec,pp_part_vec),vec_splat_u8(1)));
 351       rp_vec = vec_add(rp_vec,avg_vec);
 352
 353       rp_part_vec = vec_perm(rp_vec,VSX_CHAR_ZERO,VSX_LEFTSHIFTED2_4);
 354       pp_part_vec = vec_perm(pp_vec,VSX_CHAR_ZERO,VSX_NOT_SHIFTED2_4);
 355       avg_vec = vec_avg(rp_part_vec,pp_part_vec);
 356       avg_vec = vec_sub(avg_vec, vec_and(vec_xor(rp_part_vec,pp_part_vec),vec_splat_u8(1)));
 357       rp_vec = vec_add(rp_vec,avg_vec);
 358
 359       rp_part_vec = vec_perm(rp_vec,VSX_CHAR_ZERO,VSX_LEFTSHIFTED3_4);
 360       pp_part_vec = vec_perm(pp_vec,VSX_CHAR_ZERO,VSX_NOT_SHIFTED3_4);
 361       avg_vec = vec_avg(rp_part_vec,pp_part_vec);
 362       avg_vec = vec_sub(avg_vec, vec_and(vec_xor(rp_part_vec,pp_part_vec),vec_splat_u8(1)));
 363       rp_vec = vec_add(rp_vec,avg_vec);
 364
 365       vec_st(rp_vec,0,rp);
 366
 367       rp += 16;
 368       pp += 16;
 369       istop -= 16;
 370    }
 371
 372    if(istop  > 0)
 373       for (i = 0; i < istop % 16; i++)
 374       {
 375          *rp = (png_byte)(((int)(*rp) +
 376             (int)(*pp++ + *(rp-bpp)) / 2 ) & 0xff);
 377
 378          rp++;
 379       }
 380 }
 381
 382 void png_read_filter_row_avg3_vsx(png_row_infop row_info, png_bytep row,
 383                                   png_const_bytep prev_row)
 384 {
 385   png_byte bpp = 3;
 386
 387   vector unsigned char rp_vec;
 388   vector unsigned char pp_vec;
 389   vector unsigned char pp_part_vec;
 390   vector unsigned char rp_part_vec;
 391   vector unsigned char avg_vec;
 392
 393   vsx_declare_common_vars(row_info,row,prev_row,bpp)
 394   rp -= bpp;
 395   if(istop >= bpp)
 396      istop -= bpp;
 397
 398   for (i = 0; i < bpp; i++)
 399   {
 400      *rp = (png_byte)(((int)(*rp) +
 401         ((int)(*pp++) / 2 )) & 0xff);
 402
 403      rp++;
 404   }
 405
 406   /* Altivec operations require 16-byte aligned data
 407    * but input can be unaligned. So we calculate
 408    * unaligned part as usual.
 409    */
 410   for (i = 0; i < unaligned_top; i++)
 411   {
 412      *rp = (png_byte)(((int)(*rp) +
 413         (int)(*pp++ + *(rp-bpp)) / 2 ) & 0xff);
 414
 415      rp++;
 416   }
 417
 418   /* Using SIMD while we can */
 419   while( istop >= 16 )
 420   {
 421      for(i=0;i < bpp ; i++)
 422      {
 423         *rp = (png_byte)(((int)(*rp) +
 424            (int)(*pp++ + *(rp-bpp)) / 2 ) & 0xff);
 425
 426         rp++;
 427      }
 428      rp -= bpp;
 429      pp -= bpp;
 430
 431      vec_ld_unaligned(pp_vec,pp);
 432      rp_vec = vec_ld(0,rp);
 433
 434      rp_part_vec = vec_perm(rp_vec,VSX_CHAR_ZERO,VSX_LEFTSHIFTED1_3);
 435      pp_part_vec = vec_perm(pp_vec,VSX_CHAR_ZERO,VSX_NOT_SHIFTED1_3);
 436      avg_vec = vec_avg(rp_part_vec,pp_part_vec);
 437      avg_vec = vec_sub(avg_vec, vec_and(vec_xor(rp_part_vec,pp_part_vec),vec_splat_u8(1)));
 438      rp_vec = vec_add(rp_vec,avg_vec);
 439
 440      rp_part_vec = vec_perm(rp_vec,VSX_CHAR_ZERO,VSX_LEFTSHIFTED2_3);
 441      pp_part_vec = vec_perm(pp_vec,VSX_CHAR_ZERO,VSX_NOT_SHIFTED2_3);
 442      avg_vec = vec_avg(rp_part_vec,pp_part_vec);
 443      avg_vec = vec_sub(avg_vec, vec_and(vec_xor(rp_part_vec,pp_part_vec),vec_splat_u8(1)));
 444      rp_vec = vec_add(rp_vec,avg_vec);
 445
 446      rp_part_vec = vec_perm(rp_vec,VSX_CHAR_ZERO,VSX_LEFTSHIFTED3_3);
 447      pp_part_vec = vec_perm(pp_vec,VSX_CHAR_ZERO,VSX_NOT_SHIFTED3_3);
 448      avg_vec = vec_avg(rp_part_vec,pp_part_vec);
 449      avg_vec = vec_sub(avg_vec, vec_and(vec_xor(rp_part_vec,pp_part_vec),vec_splat_u8(1)));
 450      rp_vec = vec_add(rp_vec,avg_vec);
 451
 452      rp_part_vec = vec_perm(rp_vec,VSX_CHAR_ZERO,VSX_LEFTSHIFTED4_3);
 453      pp_part_vec = vec_perm(pp_vec,VSX_CHAR_ZERO,VSX_NOT_SHIFTED4_3);
 454      avg_vec = vec_avg(rp_part_vec,pp_part_vec);
 455      avg_vec = vec_sub(avg_vec, vec_and(vec_xor(rp_part_vec,pp_part_vec),vec_splat_u8(1)));
 456      rp_vec = vec_add(rp_vec,avg_vec);
 457
 458      vec_st(rp_vec,0,rp);
 459
 460      rp += 15;
 461      pp += 15;
 462      istop -= 16;
 463
 464      /* Since 16 % bpp = 16 % 3 = 1, last element of array must
 465       * be proceeded manually
 466       */
 467      *rp = (png_byte)(((int)(*rp) +
 468         (int)(*pp++ + *(rp-bpp)) / 2 ) & 0xff);
 469      rp++;
 470   }
 471
 472   if(istop  > 0)
 473      for (i = 0; i < istop % 16; i++)
 474      {
 475         *rp = (png_byte)(((int)(*rp) +
 476            (int)(*pp++ + *(rp-bpp)) / 2 ) & 0xff);
 477
 478         rp++;
 479      }
 480 }
 481
 482 /* Bytewise c ? t : e. */
 483 #define if_then_else(c,t,e) vec_sel(e,t,c)
 484
 485 #define vsx_paeth_process(rp,pp,a,b,c,pa,pb,pc,bpp) {\
 486       c = *(pp - bpp);\
 487       a = *(rp - bpp);\
 488       b = *pp++;\
 489       p = b - c;\
 490       pc = a - c;\
 491       pa = vsx_abs(p);\
 492       pb = vsx_abs(pc);\
 493       pc = vsx_abs(p + pc);\
 494       if (pb < pa) pa = pb, a = b;\
 495       if (pc < pa) a = c;\
 496       a += *rp;\
 497       *rp++ = (png_byte)a;\
 498       }
 499
 500 void png_read_filter_row_paeth4_vsx(png_row_infop row_info, png_bytep row,
 501    png_const_bytep prev_row)
 502 {
 503    png_byte bpp = 4;
 504
 505    int a, b, c, pa, pb, pc, p;
 506    vector unsigned char rp_vec;
 507    vector unsigned char pp_vec;
 508    vector unsigned short a_vec,b_vec,c_vec,nearest_vec;
 509    vector signed short pa_vec,pb_vec,pc_vec,smallest_vec;
 510
 511    vsx_declare_common_vars(row_info,row,prev_row,bpp)
 512    rp -= bpp;
 513    if(istop >= bpp)
 514       istop -= bpp;
 515
 516    /* Process the first pixel in the row completely (this is the same as 'up'
 517     * because there is only one candidate predictor for the first row).
 518     */
 519    for(i = 0; i < bpp ; i++)
 520    {
 521       *rp = (png_byte)( *rp + *pp);
 522       rp++;
 523       pp++;
 524    }
 525
 526    for(i = 0; i < unaligned_top ; i++)
 527    {
 528       vsx_paeth_process(rp,pp,a,b,c,pa,pb,pc,bpp)
 529    }
 530
 531    while( istop >= 16)
 532    {
 533       for(i = 0; i < bpp ; i++)
 534       {
 535          vsx_paeth_process(rp,pp,a,b,c,pa,pb,pc,bpp)
 536       }
 537
 538       rp -= bpp;
 539       pp -= bpp;
 540       rp_vec = vec_ld(0,rp);
 541       vec_ld_unaligned(pp_vec,pp);
 542
 543       a_vec = vsx_char_to_short(vec_perm(rp_vec , VSX_CHAR_ZERO , VSX_LEFTSHIFTED1_4),1,4);
 544       b_vec = vsx_char_to_short(vec_perm(pp_vec , VSX_CHAR_ZERO , VSX_NOT_SHIFTED1_4),1,4);
 545       c_vec = vsx_char_to_short(vec_perm(pp_vec , VSX_CHAR_ZERO , VSX_LEFTSHIFTED1_4),1,4);
 546       pa_vec = (vector signed short) vec_sub(b_vec,c_vec);
 547       pb_vec = (vector signed short) vec_sub(a_vec , c_vec);
 548       pc_vec = vec_add(pa_vec,pb_vec);
 549       pa_vec = vec_abs(pa_vec);
 550       pb_vec = vec_abs(pb_vec);
 551       pc_vec = vec_abs(pc_vec);
 552       smallest_vec = vec_min(pc_vec, vec_min(pa_vec,pb_vec));
 553       nearest_vec =  if_then_else(
 554             vec_cmpeq(pa_vec,smallest_vec),
 555             a_vec,
 556             if_then_else(
 557               vec_cmpeq(pb_vec,smallest_vec),
 558               b_vec,
 559               c_vec
 560               )
 561             );
 562       rp_vec = vec_add(rp_vec,(vsx_short_to_char(nearest_vec,1,4)));
 563
 564       a_vec = vsx_char_to_short(vec_perm(rp_vec , VSX_CHAR_ZERO , VSX_LEFTSHIFTED2_4),2,4);
 565       b_vec = vsx_char_to_short(vec_perm(pp_vec , VSX_CHAR_ZERO , VSX_NOT_SHIFTED2_4),2,4);
 566       c_vec = vsx_char_to_short(vec_perm(pp_vec , VSX_CHAR_ZERO , VSX_LEFTSHIFTED2_4),2,4);
 567       pa_vec = (vector signed short) vec_sub(b_vec,c_vec);
 568       pb_vec = (vector signed short) vec_sub(a_vec , c_vec);
 569       pc_vec = vec_add(pa_vec,pb_vec);
 570       pa_vec = vec_abs(pa_vec);
 571       pb_vec = vec_abs(pb_vec);
 572       pc_vec = vec_abs(pc_vec);
 573       smallest_vec = vec_min(pc_vec, vec_min(pa_vec,pb_vec));
 574       nearest_vec =  if_then_else(
 575             vec_cmpeq(pa_vec,smallest_vec),
 576             a_vec,
 577             if_then_else(
 578               vec_cmpeq(pb_vec,smallest_vec),
 579               b_vec,
 580               c_vec
 581               )
 582             );
 583       rp_vec = vec_add(rp_vec,(vsx_short_to_char(nearest_vec,2,4)));
 584
 585       a_vec = vsx_char_to_short(vec_perm(rp_vec , VSX_CHAR_ZERO , VSX_LEFTSHIFTED3_4),3,4);
 586       b_vec = vsx_char_to_short(vec_perm(pp_vec , VSX_CHAR_ZERO , VSX_NOT_SHIFTED3_4),3,4);
 587       c_vec = vsx_char_to_short(vec_perm(pp_vec , VSX_CHAR_ZERO , VSX_LEFTSHIFTED3_4),3,4);
 588       pa_vec = (vector signed short) vec_sub(b_vec,c_vec);
 589       pb_vec = (vector signed short) vec_sub(a_vec , c_vec);
 590       pc_vec = vec_add(pa_vec,pb_vec);
 591       pa_vec = vec_abs(pa_vec);
 592       pb_vec = vec_abs(pb_vec);
 593       pc_vec = vec_abs(pc_vec);
 594       smallest_vec = vec_min(pc_vec, vec_min(pa_vec,pb_vec));
 595       nearest_vec =  if_then_else(
 596             vec_cmpeq(pa_vec,smallest_vec),
 597             a_vec,
 598             if_then_else(
 599               vec_cmpeq(pb_vec,smallest_vec),
 600               b_vec,
 601               c_vec
 602               )
 603             );
 604       rp_vec = vec_add(rp_vec,(vsx_short_to_char(nearest_vec,3,4)));
 605
 606       vec_st(rp_vec,0,rp);
 607
 608       rp += 16;
 609       pp += 16;
 610       istop -= 16;
 611    }
 612
 613    if(istop > 0)
 614       for (i = 0; i < istop % 16; i++)
 615       {
 616          vsx_paeth_process(rp,pp,a,b,c,pa,pb,pc,bpp)
 617       }
 618 }
 619
 620 void png_read_filter_row_paeth3_vsx(png_row_infop row_info, png_bytep row,
 621    png_const_bytep prev_row)
 622 {
 623   png_byte bpp = 3;
 624
 625   int a, b, c, pa, pb, pc, p;
 626   vector unsigned char rp_vec;
 627   vector unsigned char pp_vec;
 628   vector unsigned short a_vec,b_vec,c_vec,nearest_vec;
 629   vector signed short pa_vec,pb_vec,pc_vec,smallest_vec;
 630
 631   vsx_declare_common_vars(row_info,row,prev_row,bpp)
 632   rp -= bpp;
 633   if(istop >= bpp)
 634      istop -= bpp;
 635
 636   /* Process the first pixel in the row completely (this is the same as 'up'
 637    * because there is only one candidate predictor for the first row).
 638    */
 639   for(i = 0; i < bpp ; i++)
 640   {
 641      *rp = (png_byte)( *rp + *pp);
 642      rp++;
 643      pp++;
 644   }
 645
 646   for(i = 0; i < unaligned_top ; i++)
 647   {
 648      vsx_paeth_process(rp,pp,a,b,c,pa,pb,pc,bpp)
 649   }
 650
 651   while( istop >= 16)
 652   {
 653      for(i = 0; i < bpp ; i++)
 654      {
 655         vsx_paeth_process(rp,pp,a,b,c,pa,pb,pc,bpp)
 656      }
 657
 658      rp -= bpp;
 659      pp -= bpp;
 660      rp_vec = vec_ld(0,rp);
 661      vec_ld_unaligned(pp_vec,pp);
 662
 663      a_vec = vsx_char_to_short(vec_perm(rp_vec , VSX_CHAR_ZERO , VSX_LEFTSHIFTED1_3),1,3);
 664      b_vec = vsx_char_to_short(vec_perm(pp_vec , VSX_CHAR_ZERO , VSX_NOT_SHIFTED1_3),1,3);
 665      c_vec = vsx_char_to_short(vec_perm(pp_vec , VSX_CHAR_ZERO , VSX_LEFTSHIFTED1_3),1,3);
 666      pa_vec = (vector signed short) vec_sub(b_vec,c_vec);
 667      pb_vec = (vector signed short) vec_sub(a_vec , c_vec);
 668      pc_vec = vec_add(pa_vec,pb_vec);
 669      pa_vec = vec_abs(pa_vec);
 670      pb_vec = vec_abs(pb_vec);
 671      pc_vec = vec_abs(pc_vec);
 672      smallest_vec = vec_min(pc_vec, vec_min(pa_vec,pb_vec));
 673      nearest_vec =  if_then_else(
 674            vec_cmpeq(pa_vec,smallest_vec),
 675            a_vec,
 676            if_then_else(
 677              vec_cmpeq(pb_vec,smallest_vec),
 678              b_vec,
 679              c_vec
 680              )
 681            );
 682      rp_vec = vec_add(rp_vec,(vsx_short_to_char(nearest_vec,1,3)));
 683
 684      a_vec = vsx_char_to_short(vec_perm(rp_vec , VSX_CHAR_ZERO , VSX_LEFTSHIFTED2_3),2,3);
 685      b_vec = vsx_char_to_short(vec_perm(pp_vec , VSX_CHAR_ZERO , VSX_NOT_SHIFTED2_3),2,3);
 686      c_vec = vsx_char_to_short(vec_perm(pp_vec , VSX_CHAR_ZERO , VSX_LEFTSHIFTED2_3),2,3);
 687      pa_vec = (vector signed short) vec_sub(b_vec,c_vec);
 688      pb_vec = (vector signed short) vec_sub(a_vec , c_vec);
 689      pc_vec = vec_add(pa_vec,pb_vec);
 690      pa_vec = vec_abs(pa_vec);
 691      pb_vec = vec_abs(pb_vec);
 692      pc_vec = vec_abs(pc_vec);
 693      smallest_vec = vec_min(pc_vec, vec_min(pa_vec,pb_vec));
 694      nearest_vec =  if_then_else(
 695            vec_cmpeq(pa_vec,smallest_vec),
 696            a_vec,
 697            if_then_else(
 698              vec_cmpeq(pb_vec,smallest_vec),
 699              b_vec,
 700              c_vec
 701              )
 702            );
 703      rp_vec = vec_add(rp_vec,(vsx_short_to_char(nearest_vec,2,3)));
 704
 705      a_vec = vsx_char_to_short(vec_perm(rp_vec , VSX_CHAR_ZERO , VSX_LEFTSHIFTED3_3),3,3);
 706      b_vec = vsx_char_to_short(vec_perm(pp_vec , VSX_CHAR_ZERO , VSX_NOT_SHIFTED3_3),3,3);
 707      c_vec = vsx_char_to_short(vec_perm(pp_vec , VSX_CHAR_ZERO , VSX_LEFTSHIFTED3_3),3,3);
 708      pa_vec = (vector signed short) vec_sub(b_vec,c_vec);
 709      pb_vec = (vector signed short) vec_sub(a_vec , c_vec);
 710      pc_vec = vec_add(pa_vec,pb_vec);
 711      pa_vec = vec_abs(pa_vec);
 712      pb_vec = vec_abs(pb_vec);
 713      pc_vec = vec_abs(pc_vec);
 714      smallest_vec = vec_min(pc_vec, vec_min(pa_vec,pb_vec));
 715      nearest_vec =  if_then_else(
 716            vec_cmpeq(pa_vec,smallest_vec),
 717            a_vec,
 718            if_then_else(
 719              vec_cmpeq(pb_vec,smallest_vec),
 720              b_vec,
 721              c_vec
 722              )
 723            );
 724      rp_vec = vec_add(rp_vec,(vsx_short_to_char(nearest_vec,3,3)));
 725
 726      a_vec = vsx_char_to_short(vec_perm(rp_vec , VSX_CHAR_ZERO , VSX_LEFTSHIFTED4_3),4,3);
 727      b_vec = vsx_char_to_short(vec_perm(pp_vec , VSX_CHAR_ZERO , VSX_NOT_SHIFTED4_3),4,3);
 728      c_vec = vsx_char_to_short(vec_perm(pp_vec , VSX_CHAR_ZERO , VSX_LEFTSHIFTED4_3),4,3);
 729      pa_vec = (vector signed short) vec_sub(b_vec,c_vec);
 730      pb_vec = (vector signed short) vec_sub(a_vec , c_vec);
 731      pc_vec = vec_add(pa_vec,pb_vec);
 732      pa_vec = vec_abs(pa_vec);
 733      pb_vec = vec_abs(pb_vec);
 734      pc_vec = vec_abs(pc_vec);
 735      smallest_vec = vec_min(pc_vec, vec_min(pa_vec,pb_vec));
 736      nearest_vec =  if_then_else(
 737            vec_cmpeq(pa_vec,smallest_vec),
 738            a_vec,
 739            if_then_else(
 740              vec_cmpeq(pb_vec,smallest_vec),
 741              b_vec,
 742              c_vec
 743              )
 744            );
 745      rp_vec = vec_add(rp_vec,(vsx_short_to_char(nearest_vec,4,3)));
 746
 747      vec_st(rp_vec,0,rp);
 748
 749      rp += 15;
 750      pp += 15;
 751      istop -= 16;
 752
 753      /* Since 16 % bpp = 16 % 3 = 1, last element of array must
 754       * be proceeded manually
 755       */
 756      vsx_paeth_process(rp,pp,a,b,c,pa,pb,pc,bpp)
 757   }
 758
 759   if(istop > 0)
 760      for (i = 0; i < istop % 16; i++)
 761      {
 762         vsx_paeth_process(rp,pp,a,b,c,pa,pb,pc,bpp)
 763      }
 764 }
 765
 766 #endif /* PNG_POWERPC_VSX_OPT > 0 */
 767 #endif /* PNG_POWERPC_VSX_IMPLEMENTATION == 1 (intrinsics) */
 768 #endif /* READ */