Compute Library: src/core/CL/cl_kernels/softmax_layer_quantized.cl Source File

 /*
  * Copyright (c) 2017 ARM Limited.
  *
  * SPDX-License-Identifier: MIT
  *
  * Permission is hereby granted, free of charge, to any person obtaining a copy
  * of this software and associated documentation files (the "Software"), to
  * deal in the Software without restriction, including without limitation the
  * rights to use, copy, modify, merge, publish, distribute, sublicense, and/or
  * sell copies of the Software, and to permit persons to whom the Software is
  * furnished to do so, subject to the following conditions:
  *
  * The above copyright notice and this permission notice shall be included in all
  * copies or substantial portions of the Software.
  *
  * THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
  * IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
  * FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
  * AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
  * LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
  * OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
  * SOFTWARE.
  */
 #include "asymm_helper.h"
 #include "helpers.h"

 #define MAX_OP(x, y, type, size) max((x), (y))
 #define ADD_OP(x, y, type, size) ((x) + (y))

 __constant uchar16 type_min = 0;
 __constant uint16 idx16     = (uint16)(0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15);

 __kernel void softmax_layer_max_quantized(
     TENSOR3D_DECLARATION(src),
     TENSOR3D_DECLARATION(dst),
     uint width)
 {
     Image src = CONVERT_TENSOR3D_TO_IMAGE_STRUCT(src);
     Image dst = CONVERT_TENSOR3D_TO_IMAGE_STRUCT(dst);

     // Initialize local maximum
     uchar16 max_val = 0;

     // Calculate max of row
     const uint width4 = width >> 4;
     for(uint i = 0; i < width4; i++)
     {
         uchar16 data = vload16(0, (__global uchar *)offset(&src, i << 4, 0));
         max_val      = MAX_OP(data, max_val, uchar, 16);
     }

 #ifdef NON_MULTIPLE_OF_16
     // Handle non multiple of 16
     uchar16 data = vload16(0, (__global uchar *)offset(&src, width4 << 4, 0));
     uchar16 widx = convert_uchar16(((uint16)(width4 << 4) + idx16) < width);
     max_val      = MAX_OP(max_val, select(type_min, data, widx), uchar, 16);
 #endif /* NON_MULTIPLE_OF_16 */

     // Perform max reduction
     max_val.s01234567 = MAX_OP(max_val.s01234567, max_val.s89ABCDEF, uchar, 8);
     max_val.s0123     = MAX_OP(max_val.s0123, max_val.s4567, uchar, 4);
     max_val.s01       = MAX_OP(max_val.s01, max_val.s23, uchar, 2);
     max_val.s0        = MAX_OP(max_val.s0, max_val.s1, uchar, 1);

     // Store result
     *((__global uchar *)dst.ptr) = max_val.s0;
 }

 #if defined(DIFF_MIN)

 int16 mult_by_quantized_multiplier(int16 data)
 {
 #if defined(INPUT_BETA_MULTIPLIER) && defined(INPUT_BETA_LEFT_SHIFT)
     if(INPUT_BETA_MULTIPLIER > 1)
     {
         return asymm_mult(data * (1 << INPUT_BETA_LEFT_SHIFT), INPUT_BETA_MULTIPLIER);
     }
 #endif /* defined(INPUT_BETA_MULTIPLIER) && defined(INPUT_BETA_LEFT_SHIFT) */
     return data;
 }

 __kernel void softmax_layer_shift_exp_sum_quantized(
     TENSOR3D_DECLARATION(src),
     TENSOR3D_DECLARATION(max),
     TENSOR3D_DECLARATION(dst),
     TENSOR3D_DECLARATION(sum),
     uint width)
 {
     Image src = CONVERT_TENSOR3D_TO_IMAGE_STRUCT(src);
     Image dst = CONVERT_TENSOR3D_TO_IMAGE_STRUCT(dst);
     Image max = CONVERT_TENSOR3D_TO_IMAGE_STRUCT(max);
     Image sum = CONVERT_TENSOR3D_TO_IMAGE_STRUCT(sum);

     // Load max value of 1D logits vector (row)
     int max_val = convert_int(*((__global uchar *)offset(&max, 0, 0)));

     // Set sum vector, Q(EXP_ACCUMULATION_INT_BITS)
     int16 sum1D = 0;

     // Shift values, exp and sum
     const uint width4 = width >> 4;
     for(uint i = 0; i < width4; i++)
     {
         uchar16 data         = vload16(0, (__global uchar *)offset(&src, i << 4, 0));
         int16 data_fp        = convert_int16(data);
         int16 data_diff      = data_fp - max_val;
         int16 data_diff_mult = mult_by_quantized_multiplier(data_diff);
         data_fp              = asymm_exp_on_negative_values(data_diff_mult, SCALED_DIFF_INT_BITS);
         data_fp              = asymm_rescale(data_fp, 0, EXP_ACCUMULATION_INT_BITS);
         vstore16(data_diff, 0, (__global int *)offset(&dst, i << 4, 0));
         sum1D = sum1D + select(0, data_fp, data_diff >= (int16)(DIFF_MIN));
     }

 #ifdef NON_MULTIPLE_OF_16
     // Handle non multiple of 16
     uchar16 data         = vload16(0, (__global uchar *)offset(&src, width4 << 4, 0));
     int16 data_fp        = convert_int16(data);
     int16 data_diff      = data_fp - max_val;
     int16 data_diff_mult = mult_by_quantized_multiplier(data_diff);
     data_fp              = asymm_exp_on_negative_values(data_diff_mult, SCALED_DIFF_INT_BITS);
     data_fp              = asymm_rescale(data_fp, 0, EXP_ACCUMULATION_INT_BITS);
     int16 widx           = convert_int16(((uint16)(width4 << 4) + idx16) < width);
     vstore16(data_diff, 0, (__global int *)offset(&dst, width4 << 4, 0));
     data_fp = select(0, data_fp, data_diff >= (int16)(DIFF_MIN));
     sum1D   = sum1D + select(0, data_fp, widx);
 #endif /* NON_MULTIPLE_OF_16 */

     // Perform min/max reduction
     sum1D.s01234567 = ADD_OP(sum1D.s01234567, sum1D.s89ABCDEF, qs16, 8);
     sum1D.s0123     = ADD_OP(sum1D.s0123, sum1D.s4567, qs16, 4);
     sum1D.s01       = ADD_OP(sum1D.s01, sum1D.s23, qs16, 2);
     sum1D.s0        = ADD_OP(sum1D.s0, sum1D.s1, qs16, 1);

     // Calculate and store result
     *((__global int *)sum.ptr) = sum1D.s0;
 }

 __kernel void softmax_layer_norm_quantized(
     TENSOR3D_DECLARATION(src),
     TENSOR3D_DECLARATION(sum),
     TENSOR3D_DECLARATION(dst))
 {
     Image src = CONVERT_TENSOR3D_TO_IMAGE_STRUCT(src);
     Image dst = CONVERT_TENSOR3D_TO_IMAGE_STRUCT(dst);
     Image sum = CONVERT_TENSOR3D_TO_IMAGE_STRUCT_NO_STEP(sum);

     // Load max value of 1D logits vector (row)
     int sum_val = *((__global int *)offset(&sum, 0, get_global_id(1)));

     // It will be better to calculate this in prev layer and pass here as parameter
     uint  sum_val_u               = convert_uint(sum_val);
     int   headroom_plus_one       = clz(sum_val_u);
     int   num_bits_over_unit      = EXP_ACCUMULATION_INT_BITS - headroom_plus_one;
     int   shifted_sum_minus_one_1 = convert_int((sum_val_u << headroom_plus_one) - (1u << 31));
     int16 shifted_sum_minus_one   = shifted_sum_minus_one_1;
     int16 shifted_scale           = asymm_one_over_one_plus_x_for_x_in_0_1(shifted_sum_minus_one);

     // It was already calculated in prev layer, should be stored into tmp output and reused
     int16 data_diff      = vload16(0, (__global int *)offset(&src, 0, 0));
     int16 data_diff_mult = mult_by_quantized_multiplier(data_diff);
     int16 data           = asymm_exp_on_negative_values(data_diff_mult, SCALED_DIFF_INT_BITS);

     data = asymm_mult(shifted_scale, data);
     data = asymm_rounding_divide_by_pow2(data, num_bits_over_unit + 31 - 8);
     data = select(0, data, data_diff >= (int16)(DIFF_MIN));
     vstore16(convert_uchar16_sat(data), 0, (__global uchar *)offset(&dst, 0, 0));
 }

 #endif /* defined(DIFF_MIN) */
CONVERT_TENSOR3D_TO_IMAGE_STRUCT_NO_STEP
#define CONVERT_TENSOR3D_TO_IMAGE_STRUCT_NO_STEP(name)
Definition: helpers.h:111

asymm_exp_on_negative_values
int16 asymm_exp_on_negative_values(int16 a, int k_integer_bits)
Calculates  for x < 0.
Definition: asymm_helper.h:200

type_min
__constant uchar16 type_min
Definition: softmax_layer_quantized.cl:30

asymm_one_over_one_plus_x_for_x_in_0_1
int16 asymm_one_over_one_plus_x_for_x_in_0_1(int16 a)
Calculates  for x in (0, 1).
Definition: asymm_helper.h:243

MAX_OP
#define MAX_OP(x, y, type, size)
Definition: softmax_layer_quantized.cl:27

sum
DATA_TYPE sum(__global const DATA_TYPE *input)
Calculate sum of a vector.
Definition: reduction_operation.cl:52

ADD_OP
#define ADD_OP(x, y, type, size)
Definition: softmax_layer_quantized.cl:28

offset
__global uchar * offset(const Image *img, int x, int y)
Get the pointer position of a Image.
Definition: helpers.h:301

softmax_layer_max_quantized
__kernel void softmax_layer_max_quantized(__global uchar *src_ptr, uint src_stride_x, uint src_step_x, uint src_stride_y, uint src_step_y, uint src_stride_z, uint src_step_z, uint src_offset_first_element_in_bytes, __global uchar *dst_ptr, uint dst_stride_x, uint dst_step_x, uint dst_stride_y, uint dst_step_y, uint dst_stride_z, uint dst_step_z, uint dst_offset_first_element_in_bytes, uint width)
Identifies the maximum value across the 1st dimension.
Definition: softmax_layer_quantized.cl:55

asymm_rescale
int16 asymm_rescale(int16 value, int src_integer_bits, int dst_integer_bits)
Considering the integer value as fixed-point, change the number of integer bits and update value acco...
Definition: asymm_helper.h:269

qs16
short qs16
Definition: fixed_point.h:37

asymm_mult
int16 asymm_mult(int16 a, int16 b)
Fixed-point multiplication.
Definition: asymm_helper.h:167

helpers.h

asymm_rounding_divide_by_pow2
int16 asymm_rounding_divide_by_pow2(int16 x, int exponent)
Correctly rounded to nearest division by a power of two.
Definition: asymm_helper.h:82

arm_compute::test::validation::dst
CLTensor dst
Definition: Convolution.cpp:123

Image
Structure to hold Image information.
Definition: helpers.h:140

TENSOR3D_DECLARATION
#define TENSOR3D_DECLARATION(name)
Definition: helpers.h:74

Image::ptr
__global uchar * ptr
Pointer to the starting postion of the buffer.
Definition: helpers.h:142

CONVERT_TENSOR3D_TO_IMAGE_STRUCT
#define CONVERT_TENSOR3D_TO_IMAGE_STRUCT(name)
Definition: helpers.h:114

arm_compute::test::fixed_point_arithmetic::detail::clz
constexpr int clz(T value)
Count the number of leading zero bits in the given value.
Definition: FixedPoint.h:276

arm_compute::test::fixed_point_arithmetic::detail::max
fixed_point< T > max(fixed_point< T > x, fixed_point< T > y)
Definition: FixedPoint.h:889

asymm_helper.h

arm_compute::test::validation::src
convolution configure & src
Definition: Convolution.cpp:133

idx16
__constant uint16 idx16
Definition: softmax_layer_quantized.cl:31