Compute Library: src/core/CL/cl_kernels/softmax_layer_quantized.cl Source File

 /*
  * Copyright (c) 2017-2018 ARM Limited.
  *
  * SPDX-License-Identifier: MIT
  *
  * Permission is hereby granted, free of charge, to any person obtaining a copy
  * of this software and associated documentation files (the "Software"), to
  * deal in the Software without restriction, including without limitation the
  * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or
  * sell copies of the Software, and to permit persons to whom the Software is
  * furnished to do so, subject to the following conditions:
  *
  * The above copyright notice and this permission notice shall be included in all
  * copies or substantial portions of the Software.
  *
  * THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
  * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
  * FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
  * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
  * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
  * OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
  * SOFTWARE.
  */
 #include "helpers_asymm.h"

 #define MAX_OP(x, y, type, size) max((x), (y))
 #define ADD_OP(x, y, type, size) ((x) + (y))

 /* Number of workitems in dimension 0. */
 #if !defined(GRID_SIZE)
 #define GRID_SIZE 1
 #endif /* !defined(GRID_SIZE) */

 #if VECTOR_SIZE == 2
 __constant uint2 idx__ = (uint2)(0, 1);
 #define asymm_mult(a, b) ASYMM_MULT(a, b, 2)
 #define asymm_exp_on_negative_values(a, k_integer_bits) ASYMM_EXP_ON_NEGATIVE_VALUES(a, k_integer_bits, 2)
 #define asymm_rescale(value, src_integer_bits, dst_integer_bits) ASYMM_RESCALE(value, src_integer_bits, dst_integer_bits, 2)

 #elif VECTOR_SIZE == 4
 __constant uint4 idx__ = (uint4)(0, 1, 2, 3);
 #define asymm_mult(a, b) ASYMM_MULT(a, b, 4)
 #define asymm_exp_on_negative_values(a, k_integer_bits) ASYMM_EXP_ON_NEGATIVE_VALUES(a, k_integer_bits, 4)
 #define asymm_rescale(value, src_integer_bits, dst_integer_bits) ASYMM_RESCALE(value, src_integer_bits, dst_integer_bits, 4)

 #elif VECTOR_SIZE == 8
 __constant uint8 idx__ = (uint8)(0, 1, 2, 3, 4, 5, 6, 7);
 #define asymm_mult(a, b) ASYMM_MULT(a, b, 8)
 #define asymm_exp_on_negative_values(a, k_integer_bits) ASYMM_EXP_ON_NEGATIVE_VALUES(a, k_integer_bits, 8)
 #define asymm_rescale(value, src_integer_bits, dst_integer_bits) ASYMM_RESCALE(value, src_integer_bits, dst_integer_bits, 8)

 #else /* VECTOR_SIZE DEFAULT */
 #define VECTOR_SIZE 16
 #define LOG_VECTOR_SIZE 4
 __constant uint16 idx__ = (uint16)(0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15);
 #define asymm_mult(a, b) ASYMM_MULT(a, b, 16)
 #define asymm_exp_on_negative_values(a, k_integer_bits) ASYMM_EXP_ON_NEGATIVE_VALUES(a, k_integer_bits, 16)
 #define asymm_rescale(value, src_integer_bits, dst_integer_bits) ASYMM_RESCALE(value, src_integer_bits, dst_integer_bits, 16)

 #endif /* VECTOR_SIZE END */

 #define VEC_UCHAR VEC_DATA_TYPE(uchar, VECTOR_SIZE)
 #define VEC_UINT VEC_DATA_TYPE(uint, VECTOR_SIZE)
 #define VEC_INT VEC_DATA_TYPE(int, VECTOR_SIZE)

 #if defined(DIFF_MIN)

 VEC_INT mult_by_quantized_multiplier_serial(VEC_INT data)
 {
 #if defined(INPUT_BETA_MULTIPLIER) && defined(INPUT_BETA_LEFT_SHIFT)
     if(INPUT_BETA_MULTIPLIER > 1)
     {
         return asymm_mult(data * (1 << INPUT_BETA_LEFT_SHIFT), INPUT_BETA_MULTIPLIER);
     }
 #endif /* defined(INPUT_BETA_MULTIPLIER) && defined(INPUT_BETA_LEFT_SHIFT) */
     return data;
 }

 int4 mult_by_quantized_multiplier_parallel(int4 data)
 {
 #if defined(INPUT_BETA_MULTIPLIER) && defined(INPUT_BETA_LEFT_SHIFT)
     if(INPUT_BETA_MULTIPLIER > 1)
     {
         return ASYMM_MULT(data * (1 << INPUT_BETA_LEFT_SHIFT), INPUT_BETA_MULTIPLIER, 4);
     }
 #endif /* defined(INPUT_BETA_MULTIPLIER) && defined(INPUT_BETA_LEFT_SHIFT) */
     return data;
 }

 __kernel void softmax_layer_max_shift_exp_sum_quantized_serial(
     TENSOR3D_DECLARATION(src),
     TENSOR3D_DECLARATION(maxo),
     TENSOR3D_DECLARATION(dst),
     TENSOR3D_DECLARATION(sum),
     uint width)
 {
     Image src  = CONVERT_TENSOR3D_TO_IMAGE_STRUCT(src);
     Image dst  = CONVERT_TENSOR3D_TO_IMAGE_STRUCT(dst);
     Image maxo = CONVERT_TENSOR3D_TO_IMAGE_STRUCT(maxo);
     Image sum  = CONVERT_TENSOR3D_TO_IMAGE_STRUCT(sum);

     VEC_UCHAR max_val_vec = 0;

     // Calculate max of row
     const uint width4 = width >> LOG_VECTOR_SIZE;
     for(uint i = 0; i < width4; i++)
     {
         VEC_UCHAR data = VLOAD(VECTOR_SIZE)(0, (__global uchar *)offset(&src, i << LOG_VECTOR_SIZE, 0));
         max_val_vec    = MAX_OP(data, max_val_vec, uchar, 16);
     }

 #ifdef NON_MULTIPLE_OF_VECTOR_SIZE
     // Handle non multiple of 16
     VEC_UCHAR uchar_min = (VEC_UCHAR)0;
     VEC_UCHAR data      = VLOAD(VECTOR_SIZE)(0, (__global uchar *)offset(&src, width4 << LOG_VECTOR_SIZE, 0));
     VEC_UCHAR widx      = CONVERT(((VEC_UINT)(width4 << LOG_VECTOR_SIZE) + idx__) < width, VEC_UCHAR);
     max_val_vec         = MAX_OP(max_val_vec, select(uchar_min, data, widx), uchar, 16);
 #endif /* NON_MULTIPLE_OF_VECTOR_SIZE */

     // Perform max reduction
 #if VECTOR_SIZE == 16
     max_val_vec.s01234567 = MAX_OP(max_val_vec.s01234567, max_val_vec.s89ABCDEF, uchar, 8);
 #endif /* VECTOR SIZE 16 END */
 #if VECTOR_SIZE >= 8
     max_val_vec.s0123 = MAX_OP(max_val_vec.s0123, max_val_vec.s4567, uchar, 4);
 #endif /* VECTOR SIZE 8 END */
 #if VECTOR_SIZE >= 4
     max_val_vec.s01 = MAX_OP(max_val_vec.s01, max_val_vec.s23, uchar, 2);
 #endif /* VECTOR SIZE 4 END */
     max_val_vec.s0 = MAX_OP(max_val_vec.s0, max_val_vec.s1, uchar, 1);

     // Store result
     *((__global uchar *)maxo.ptr) = max_val_vec.s0;

     // Second part

     // Load max value of 1D logits vector (row)
     int max_val = convert_int(*((__global uchar *)offset(&maxo, 0, 0)));

     // Set sum vector, Q(EXP_ACCUMULATION_INT_BITS)
     VEC_INT sum1D = 0;

     // Shift values, exp and sum
     for(uint i = 0; i < width4; i++)
     {
         VEC_UCHAR data         = VLOAD(VECTOR_SIZE)(0, (__global uchar *)offset(&src, i << LOG_VECTOR_SIZE, 0));
         VEC_INT data_fp        = CONVERT(data, VEC_INT);
         VEC_INT data_diff      = data_fp - max_val;
         VEC_INT data_diff_mult = mult_by_quantized_multiplier_serial(data_diff);
         data_fp                = asymm_exp_on_negative_values(data_diff_mult, SCALED_DIFF_INT_BITS);
         data_fp                = asymm_rescale(data_fp, 0, EXP_ACCUMULATION_INT_BITS);
         VSTORE(VECTOR_SIZE)
         (data_diff, 0, (__global int *)offset(&dst, i << LOG_VECTOR_SIZE, 0));
         sum1D = sum1D + select(0, data_fp, data_diff >= (VEC_INT)(DIFF_MIN));
     }

 #ifdef NON_MULTIPLE_OF_VECTOR_SIZE
     // Handle non multiple of 16
     data                   = VLOAD(VECTOR_SIZE)(0, (__global uchar *)offset(&src, width4 << LOG_VECTOR_SIZE, 0));
     VEC_INT data_fp        = CONVERT(data, VEC_INT);
     VEC_INT data_diff      = data_fp - max_val;
     VEC_INT data_diff_mult = mult_by_quantized_multiplier_serial(data_diff);
     data_fp                = asymm_exp_on_negative_values(data_diff_mult, SCALED_DIFF_INT_BITS);
     data_fp                = asymm_rescale(data_fp, 0, EXP_ACCUMULATION_INT_BITS);
     VEC_INT widx_          = CONVERT(((VEC_UINT)(width4 << LOG_VECTOR_SIZE) + idx__) < width, VEC_INT);
     VSTORE(VECTOR_SIZE)
     (data_diff, 0, (__global int *)offset(&dst, width4 << LOG_VECTOR_SIZE, 0));
     data_fp = select(0, data_fp, data_diff >= (VEC_INT)(DIFF_MIN));
     sum1D   = sum1D + select(0, data_fp, widx_);
 #endif /* NON_MULTIPLE_OF_VECTOR_SIZE */

     // Perform sum reduction
 #if VECTOR_SIZE == 16
     sum1D.s01234567 = ADD_OP(sum1D.s01234567, sum1D.s89ABCDEF, uchar, 8);
 #endif /* VECTOR SIZE 16 END */
 #if VECTOR_SIZE >= 8
     sum1D.s0123 = ADD_OP(sum1D.s0123, sum1D.s4567, uchar, 4);
 #endif /* VECTOR SIZE 8 END */
 #if VECTOR_SIZE >= 4
     sum1D.s01 = ADD_OP(sum1D.s01, sum1D.s23, uchar, 2);
 #endif /* VECTOR SIZE 4 END */
     sum1D.s0 = ADD_OP(sum1D.s0, sum1D.s1, uchar, 1);

     // Calculate and store result
     *((__global int *)sum.ptr) = sum1D.s0;
 }

 __kernel void softmax_layer_max_shift_exp_sum_quantized_parallel(
     TENSOR3D_DECLARATION(src),
     TENSOR3D_DECLARATION(maxo),
     TENSOR3D_DECLARATION(dst),
     TENSOR3D_DECLARATION(sum),
     uint width)
 {
     Image src  = CONVERT_TENSOR3D_TO_IMAGE_STRUCT(src);
     Image dst  = CONVERT_TENSOR3D_TO_IMAGE_STRUCT(dst);
     Image maxo = CONVERT_TENSOR3D_TO_IMAGE_STRUCT(maxo);
     Image sum  = CONVERT_TENSOR3D_TO_IMAGE_STRUCT(sum);

     const uint4 idx4 = (uint4)(0, 1, 2, 3);
     const uint  lid  = get_local_id(0);

     // Define one temporary vector per work-item.
     __local int4 tmp_local[GRID_SIZE];
     __local uchar max_local;

     uchar4 uchar_min   = (uchar4)0;
     uchar4 max_val_vec = uchar_min;

     // Number of elements per work-item.
     const uint row = width / GRID_SIZE;
     // Number of iterations per work-item.
     const uint width_ = row >> 2;
     // Calculate max of row
     uint i = 0;
     for(; i < width_; i++)
     {
         uchar4 data_max = vload4(0, (__global uchar *)offset(&src, i * GRID_SIZE * 4, 0));
         max_val_vec     = MAX_OP(data_max, max_val_vec, uchar, 4);
     }
 #ifdef NON_MULTIPLE_OF_GRID_SIZE
     // How many work-items needed to complete the computation.
     int boundary_workitems = (width % (GRID_SIZE * 4)) / 4;
     if(lid < boundary_workitems)
     {
         uchar4 data_max = vload4(0, (__global uchar *)offset(&src, i * GRID_SIZE * 4, 0));
         max_val_vec     = MAX_OP(data_max, max_val_vec, uchar, 4);
     }
 #ifdef NON_MULTIPLE_OF_VECTOR_SIZE
     if(boundary_workitems == 0)
     {
         boundary_workitems = GRID_SIZE;
         i--;
     }
     if(lid == (boundary_workitems - 1))
     {
         // Handle non multiple of 4
         uchar4 data_max = vload4(0, (__global uchar *)offset(&src, (GRID_SIZE * i * 4) + 4, 0));
         uchar4 widx     = convert_uchar4(((uint4)(GRID_SIZE * i * 4) + boundary_workitems * 4 + idx4) < width);
         max_val_vec     = MAX_OP(max_val_vec, select(uchar_min, data_max, widx), uchar, 4);
     }
 #endif /* NON_MULTIPLE_OF_VECTOR_SIZE */
 #endif /* NON_MULTIPLE_OF_GRID_SIZE */
     tmp_local[lid] = convert_int4(max_val_vec);

     barrier(CLK_LOCAL_MEM_FENCE);

     if(GRID_SIZE >= 256)
     {
         if(lid < 128)
         {
             tmp_local[lid] = MAX_OP(tmp_local[lid + 128], tmp_local[lid], int, 4);
         }
         barrier(CLK_LOCAL_MEM_FENCE);
     }
     if(GRID_SIZE >= 128)
     {
         if(lid < 64)
         {
             tmp_local[lid] = MAX_OP(tmp_local[lid + 64], tmp_local[lid], int, 4);
         }
         barrier(CLK_LOCAL_MEM_FENCE);
     }
     if(GRID_SIZE >= 64)
     {
         if(lid < 32)
         {
             tmp_local[lid] = MAX_OP(tmp_local[lid + 32], tmp_local[lid], int, 4);
         }
         barrier(CLK_LOCAL_MEM_FENCE);
     }
     if(GRID_SIZE >= 32)
     {
         if(lid < 16)
         {
             tmp_local[lid] = MAX_OP(tmp_local[lid + 16], tmp_local[lid], int, 4);
         }
         barrier(CLK_LOCAL_MEM_FENCE);
     }
     if(GRID_SIZE >= 16)
     {
         if(lid < 8)
         {
             tmp_local[lid] = MAX_OP(tmp_local[lid + 8], tmp_local[lid], int, 4);
         }
         barrier(CLK_LOCAL_MEM_FENCE);
     }
     if(GRID_SIZE >= 8)
     {
         if(lid < 4)
         {
             tmp_local[lid] = MAX_OP(tmp_local[lid + 4], tmp_local[lid], int, 4);
         }
         barrier(CLK_LOCAL_MEM_FENCE);
     }
     if(GRID_SIZE >= 4)
     {
         if(lid < 2)
         {
             tmp_local[lid] = MAX_OP(tmp_local[lid + 2], tmp_local[lid], int, 4);
         }
         barrier(CLK_LOCAL_MEM_FENCE);
     }
     if(lid == 0)
     {
         max_val_vec     = MAX_OP(convert_uchar4(tmp_local[lid + 1]), convert_uchar4(tmp_local[lid]), uchar, 4);
         max_val_vec.s01 = MAX_OP(max_val_vec.s01, max_val_vec.s23, uchar, 2);
         max_val_vec.s0  = MAX_OP(max_val_vec.s0, max_val_vec.s1, uchar, 1);
         max_local       = max_val_vec.s0;
     }
     barrier(CLK_LOCAL_MEM_FENCE);

     /* Second section */

     // Set sum vector
     int4 sum1D   = 0;
     int  max_val = convert_int(max_local);

     // Shift values, exp and sum
     for(i = 0; i < width_; i++)
     {
         uchar4 data         = vload4(0, (__global uchar *)offset(&src, i * GRID_SIZE * 4, 0));
         int4 data_fp        = convert_int4(data);
         int4 data_diff      = data_fp - max_val;
         int4 data_diff_mult = mult_by_quantized_multiplier_parallel(data_diff);
         data_fp             = ASYMM_EXP_ON_NEGATIVE_VALUES(data_diff_mult, SCALED_DIFF_INT_BITS, 4);
         data_fp             = ASYMM_RESCALE(data_fp, 0, EXP_ACCUMULATION_INT_BITS, 4);
         vstore4(data_diff, 0, (__global int *)offset(&dst, i * GRID_SIZE * 4, 0));
         sum1D = sum1D + select(0, data_fp, data_diff >= (int4)(DIFF_MIN));
     }
 #ifdef NON_MULTIPLE_OF_GRID_SIZE
     boundary_workitems = (width % (GRID_SIZE * 4)) / 4;
     if(lid < boundary_workitems)
     {
         uchar4 data         = vload4(0, (__global uchar *)offset(&src, i * GRID_SIZE * 4, 0));
         int4 data_fp        = convert_int4(data);
         int4 data_diff      = data_fp - max_val;
         int4 data_diff_mult = mult_by_quantized_multiplier_parallel(data_diff);
         data_fp             = ASYMM_EXP_ON_NEGATIVE_VALUES(data_diff_mult, SCALED_DIFF_INT_BITS, 4);
         data_fp             = ASYMM_RESCALE(data_fp, 0, EXP_ACCUMULATION_INT_BITS, 4);
         vstore4(data_diff, 0, (__global int *)offset(&dst, i * GRID_SIZE * 4, 0));
         sum1D = sum1D + select(0, data_fp, data_diff >= (int4)(DIFF_MIN));
     }
 #ifdef NON_MULTIPLE_OF_VECTOR_SIZE
     if(boundary_workitems == 0)
     {
         boundary_workitems = GRID_SIZE;
         i--;
     }
     if(lid == (boundary_workitems - 1))
     {
         // Handle non multiple of vector size ((GRID_SIZE * i * 4) + 4, 0); move 4 float positions ahead, *4 is due to the stride
         uchar4 data         = vload4(0, (__global uchar *)offset(&src, i * GRID_SIZE * 4 + 4, 0));
         int4 data_fp        = convert_int4(data);
         int4 data_diff      = data_fp - max_val;
         int4 data_diff_mult = mult_by_quantized_multiplier_parallel(data_diff);
         data_fp             = ASYMM_EXP_ON_NEGATIVE_VALUES(data_diff_mult, SCALED_DIFF_INT_BITS, 4);
         data_fp             = ASYMM_RESCALE(data_fp, 0, EXP_ACCUMULATION_INT_BITS, 4);
         int4 widx           = convert_int4(((uint4)(GRID_SIZE * i * 4) + boundary_workitems * 4 + idx4) < width);
         data_fp             = select(0, data_fp, widx);
         vstore4(data_diff, 0, (__global int *)offset(&dst, i * GRID_SIZE * 4 + 4, 0));
         sum1D = sum1D + select(0, data_fp, data_diff >= (int4)(DIFF_MIN));
     }
 #endif /* NON_MULTIPLE_OF_VECTOR_SIZE */
 #endif /* NON_MULTIPLE_OF_GRID_SIZE */
     tmp_local[lid] = sum1D;

     barrier(CLK_LOCAL_MEM_FENCE);

     if(GRID_SIZE >= 256)
     {
         if(lid < 128)
         {
             tmp_local[lid] = ADD_OP(tmp_local[lid + 128], tmp_local[lid], int, 4);
         }
         barrier(CLK_LOCAL_MEM_FENCE);
     }
     if(GRID_SIZE >= 128)
     {
         if(lid < 64)
         {
             tmp_local[lid] = ADD_OP(tmp_local[lid + 64], tmp_local[lid], int, 4);
         }
         barrier(CLK_LOCAL_MEM_FENCE);
     }
     if(GRID_SIZE >= 64)
     {
         if(lid < 32)
         {
             tmp_local[lid] = ADD_OP(tmp_local[lid + 32], tmp_local[lid], int, 4);
         }
         barrier(CLK_LOCAL_MEM_FENCE);
     }
     if(GRID_SIZE >= 32)
     {
         if(lid < 16)
         {
             tmp_local[lid] = ADD_OP(tmp_local[lid + 16], tmp_local[lid], int, 4);
         }
         barrier(CLK_LOCAL_MEM_FENCE);
     }
     if(GRID_SIZE >= 16)
     {
         if(lid < 8)
         {
             tmp_local[lid] = ADD_OP(tmp_local[lid + 8], tmp_local[lid], int, 4);
         }
         barrier(CLK_LOCAL_MEM_FENCE);
     }
     if(GRID_SIZE >= 8)
     {
         if(lid < 4)
         {
             tmp_local[lid] = ADD_OP(tmp_local[lid + 4], tmp_local[lid], int, 4);
         }
         barrier(CLK_LOCAL_MEM_FENCE);
     }
     if(GRID_SIZE >= 4)
     {
         if(lid < 2)
         {
             tmp_local[lid] = ADD_OP(tmp_local[lid + 2], tmp_local[lid], int, 4);
         }
         barrier(CLK_LOCAL_MEM_FENCE);
     }
     if(lid == 0)
     {
         sum1D = ADD_OP(tmp_local[lid + 1], tmp_local[lid], int, 4);
         // Perform max reduction
         sum1D.s01                  = ADD_OP(sum1D.s01, sum1D.s23, int, 2);
         sum1D.s0                   = ADD_OP(sum1D.s0, sum1D.s1, int, 1);
         *((__global int *)sum.ptr) = sum1D.s0;
     }
 }

 __kernel void softmax_layer_norm_quantized(
     TENSOR3D_DECLARATION(src),
     TENSOR3D_DECLARATION(sum),
     TENSOR3D_DECLARATION(dst))
 {
     Image src = CONVERT_TENSOR3D_TO_IMAGE_STRUCT(src);
     Image dst = CONVERT_TENSOR3D_TO_IMAGE_STRUCT(dst);
     Image sum = CONVERT_TENSOR3D_TO_IMAGE_STRUCT_NO_STEP(sum);

     // Load max value of 1D logits vector (row)
     int sum_val = *((__global int *)offset(&sum, 0, get_global_id(1)));

     // It will be better to calculate this in prev layer and pass here as parameter
     uint  sum_val_u               = convert_uint(sum_val);
     int   headroom_plus_one       = clz(sum_val_u);
     int   num_bits_over_unit      = EXP_ACCUMULATION_INT_BITS - headroom_plus_one;
     int   shifted_sum_minus_one_1 = convert_int((sum_val_u << headroom_plus_one) - (1u << 31));
     int16 shifted_sum_minus_one   = shifted_sum_minus_one_1;
     int16 shifted_scale           = ASYMM_ONE_OVER_ONE_PLUS_X_FOR_X_IN_0_1(shifted_sum_minus_one, 16);

     // It was already calculated in prev layer, should be stored into tmp output and reused
     int16 data_diff      = vload16(0, (__global int *)offset(&src, 0, 0));
     int16 data_diff_mult = data_diff;
 #if defined(INPUT_BETA_MULTIPLIER) && defined(INPUT_BETA_LEFT_SHIFT)
     if(INPUT_BETA_MULTIPLIER > 1)
     {
         data_diff_mult = ASYMM_MULT(data_diff * (1 << INPUT_BETA_LEFT_SHIFT), INPUT_BETA_MULTIPLIER, 16);
     }
 #endif /* defined(INPUT_BETA_MULTIPLIER) && defined(INPUT_BETA_LEFT_SHIFT) */
     int16 data = ASYMM_EXP_ON_NEGATIVE_VALUES(data_diff_mult, SCALED_DIFF_INT_BITS, 16);

     data = ASYMM_MULT(shifted_scale, data, 16);
     data = ASYMM_ROUNDING_DIVIDE_BY_POW2(data, num_bits_over_unit + 31 - 8, 16);
     data = select(0, data, data_diff >= (int16)(DIFF_MIN));
     vstore16(convert_uchar16_sat(data), 0, (__global uchar *)offset(&dst, 0, 0));
 }

 #endif /* defined(DIFF_MIN) */
CONVERT_TENSOR3D_TO_IMAGE_STRUCT_NO_STEP
#define CONVERT_TENSOR3D_TO_IMAGE_STRUCT_NO_STEP(name)
Definition: helpers.h:111

CONVERT
#define CONVERT(x, type)
Definition: fixed_point.h:98

VLOAD
#define VLOAD(size)
Definition: helpers.h:40

VEC_UINT
#define VEC_UINT
Definition: softmax_layer_quantized.cl:63

asymm_mult
#define asymm_mult(a, b)
Definition: softmax_layer_quantized.cl:56

idx__
__constant uint16 idx__
Definition: softmax_layer_quantized.cl:55

VECTOR_SIZE
#define VECTOR_SIZE
Definition: softmax_layer_quantized.cl:53

ASYMM_MULT
#define ASYMM_MULT(a, b, size)
Definition: helpers_asymm.h:295

MAX_OP
#define MAX_OP(x, y, type, size)
Definition: softmax_layer_quantized.cl:26

sum
DATA_TYPE sum(__global const DATA_TYPE *input)
Calculate sum of a vector.
Definition: reduction_operation.cl:52

ASYMM_ROUNDING_DIVIDE_BY_POW2
#define ASYMM_ROUNDING_DIVIDE_BY_POW2(x, exponent, size)
Definition: helpers_asymm.h:294

ADD_OP
#define ADD_OP(x, y, type, size)
Definition: softmax_layer_quantized.cl:27

offset
__global uchar * offset(const Image *img, int x, int y)
Get the pointer position of a Image.
Definition: helpers.h:301

VSTORE
#define VSTORE(size)
Definition: helpers.h:43

ASYMM_RESCALE
#define ASYMM_RESCALE(value, src_integer_bits, dst_integer_bits, size)
Definition: helpers_asymm.h:307

idx4
__constant uint4 idx4
Definition: softmax_layer.cl:88

arm_compute::test::validation::dst
CLTensor dst
Definition: Convolution.cpp:137

asymm_rescale
#define asymm_rescale(value, src_integer_bits, dst_integer_bits)
Definition: softmax_layer_quantized.cl:58

VEC_INT
#define VEC_INT
Definition: softmax_layer_quantized.cl:64

Image
Structure to hold Image information.
Definition: helpers.h:140

TENSOR3D_DECLARATION
#define TENSOR3D_DECLARATION(name)
Definition: helpers.h:74

LOG_VECTOR_SIZE
#define LOG_VECTOR_SIZE
Definition: softmax_layer_quantized.cl:54

Image::ptr
__global uchar * ptr
Pointer to the starting postion of the buffer.
Definition: helpers.h:142

helpers_asymm.h

VEC_UCHAR
#define VEC_UCHAR
Definition: softmax_layer_quantized.cl:62

GRID_SIZE
#define GRID_SIZE
Definition: softmax_layer_quantized.cl:31

asymm_exp_on_negative_values
#define asymm_exp_on_negative_values(a, k_integer_bits)
Definition: softmax_layer_quantized.cl:57

CONVERT_TENSOR3D_TO_IMAGE_STRUCT
#define CONVERT_TENSOR3D_TO_IMAGE_STRUCT(name)
Definition: helpers.h:114

arm_compute::test::fixed_point_arithmetic::detail::clz
constexpr int clz(T value)
Count the number of leading zero bits in the given value.
Definition: FixedPoint.h:276

ASYMM_ONE_OVER_ONE_PLUS_X_FOR_X_IN_0_1
#define ASYMM_ONE_OVER_ONE_PLUS_X_FOR_X_IN_0_1(a, size)
Definition: helpers_asymm.h:304

ASYMM_EXP_ON_NEGATIVE_VALUES
#define ASYMM_EXP_ON_NEGATIVE_VALUES(a, k_integer_bits, size)
Definition: helpers_asymm.h:303

arm_compute::test::validation::src
convolution configure & src
Definition: Convolution.cpp:147