modules/gpu/src/cuda/bf_knnmatch.cu

   1 /*M///////////////////////////////////////////////////////////////////////////////////////\r
   2 //\r
   3 //  IMPORTANT: READ BEFORE DOWNLOADING, COPYING, INSTALLING OR USING.\r
   4 //\r
   5 //  By downloading, copying, installing or using the software you agree to this license.\r
   6 //  If you do not agree to this license, do not download, install,\r
   7 //  copy or use the software.\r
   8 //\r
   9 //\r
  10 //                           License Agreement\r
  11 //                For Open Source Computer Vision Library\r
  12 //\r
  13 // Copyright (C) 2000-2008, Intel Corporation, all rights reserved.\r
  14 // Copyright (C) 2009, Willow Garage Inc., all rights reserved.\r
  15 // Third party copyrights are property of their respective owners.\r
  16 //\r
  17 // Redistribution and use in source and binary forms, with or without modification,\r
  18 // are permitted provided that the following conditions are met:\r
  19 //\r
  20 //   * Redistribution's of source code must retain the above copyright notice,\r
  21 //     this list of conditions and the following disclaimer.\r
  22 //\r
  23 //   * Redistribution's in binary form must reproduce the above copyright notice,\r
  24 //     this list of conditions and the following disclaimer in the documentation\r
  25 //     and/or other materials provided with the distribution.\r
  26 //\r
  27 //   * The name of the copyright holders may not be used to endorse or promote products\r
  28 //     derived from this software without specific prior written permission.\r
  29 //\r
  30 // This software is provided by the copyright holders and contributors "as is" and\r
  31 // any express or bpied warranties, including, but not limited to, the bpied\r
  32 // warranties of merchantability and fitness for a particular purpose are disclaimed.\r
  33 // In no event shall the Intel Corporation or contributors be liable for any direct,\r
  34 // indirect, incidental, special, exemplary, or consequential damages\r
  35 // (including, but not limited to, procurement of substitute goods or services;\r
  36 // loss of use, data, or profits; or business interruption) however caused\r
  37 // and on any theory of liability, whether in contract, strict liability,\r
  38 // or tort (including negligence or otherwise) arising in any way out of\r
  39 // the use of this software, even if advised of the possibility of such damage.\r
  40 //\r
  41 //M*/\r
  42 \r
  43 #include "internal_shared.hpp"\r
  44 #include "opencv2/gpu/device/limits.hpp"\r
  45 #include "opencv2/gpu/device/vec_distance.hpp"\r
  46 #include "opencv2/gpu/device/datamov_utils.hpp"\r
  47 \r
  48 namespace cv { namespace gpu { namespace device\r
  49 {\r
  50     namespace bf_knnmatch\r
  51     {\r
  52         ///////////////////////////////////////////////////////////////////////////////\r
  53         // Reduction\r
  54 \r
  55         template <int BLOCK_SIZE>\r
  56         __device__ void findBestMatch(float& bestDistance1, float& bestDistance2,\r
  57                                       int& bestTrainIdx1, int& bestTrainIdx2,\r
  58                                       float* s_distance, int* s_trainIdx)\r
  59         {\r
  60             float myBestDistance1 = numeric_limits<float>::max();\r
  61             float myBestDistance2 = numeric_limits<float>::max();\r
  62             int myBestTrainIdx1 = -1;\r
  63             int myBestTrainIdx2 = -1;\r
  64 \r
  65             s_distance += threadIdx.y * BLOCK_SIZE;\r
  66             s_trainIdx += threadIdx.y * BLOCK_SIZE;\r
  67 \r
  68             s_distance[threadIdx.x] = bestDistance1;\r
  69             s_trainIdx[threadIdx.x] = bestTrainIdx1;\r
  70 \r
  71             __syncthreads();\r
  72 \r
  73             if (threadIdx.x == 0)\r
  74             {\r
  75                 #pragma unroll\r
  76                 for (int i = 0; i < BLOCK_SIZE; ++i)\r
  77                 {\r
  78                     float val = s_distance[i];\r
  79 \r
  80                     if (val < myBestDistance1)\r
  81                     {\r
  82                         myBestDistance2 = myBestDistance1;\r
  83                         myBestTrainIdx2 = myBestTrainIdx1;\r
  84 \r
  85                         myBestDistance1 = val;\r
  86                         myBestTrainIdx1 = s_trainIdx[i];\r
  87                     }\r
  88                     else if (val < myBestDistance2)\r
  89                     {\r
  90                         myBestDistance2 = val;\r
  91                         myBestTrainIdx2 = s_trainIdx[i];\r
  92                     }\r
  93                 }\r
  94             }\r
  95 \r
  96             __syncthreads();\r
  97 \r
  98             s_distance[threadIdx.x] = bestDistance2;\r
  99             s_trainIdx[threadIdx.x] = bestTrainIdx2;\r
 100 \r
 101             __syncthreads();\r
 102 \r
 103             if (threadIdx.x == 0)\r
 104             {\r
 105                 #pragma unroll\r
 106                 for (int i = 0; i < BLOCK_SIZE; ++i)\r
 107                 {\r
 108                     float val = s_distance[i];\r
 109 \r
 110                     if (val < myBestDistance2)\r
 111                     {\r
 112                         myBestDistance2 = val;\r
 113                         myBestTrainIdx2 = s_trainIdx[i];\r
 114                     }\r
 115                 }\r
 116             }\r
 117 \r
 118             bestDistance1 = myBestDistance1;\r
 119             bestDistance2 = myBestDistance2;\r
 120 \r
 121             bestTrainIdx1 = myBestTrainIdx1;\r
 122             bestTrainIdx2 = myBestTrainIdx2;\r
 123         }\r
 124 \r
 125         template <int BLOCK_SIZE>\r
 126         __device__ void findBestMatch(float& bestDistance1, float& bestDistance2,\r
 127                                        int& bestTrainIdx1, int& bestTrainIdx2,\r
 128                                        int& bestImgIdx1, int& bestImgIdx2,\r
 129                                        float* s_distance, int* s_trainIdx, int* s_imgIdx)\r
 130         {\r
 131             float myBestDistance1 = numeric_limits<float>::max();\r
 132             float myBestDistance2 = numeric_limits<float>::max();\r
 133             int myBestTrainIdx1 = -1;\r
 134             int myBestTrainIdx2 = -1;\r
 135             int myBestImgIdx1 = -1;\r
 136             int myBestImgIdx2 = -1;\r
 137 \r
 138             s_distance += threadIdx.y * BLOCK_SIZE;\r
 139             s_trainIdx += threadIdx.y * BLOCK_SIZE;\r
 140             s_imgIdx   += threadIdx.y * BLOCK_SIZE;\r
 141 \r
 142             s_distance[threadIdx.x] = bestDistance1;\r
 143             s_trainIdx[threadIdx.x] = bestTrainIdx1;\r
 144             s_imgIdx[threadIdx.x]   = bestImgIdx1;\r
 145 \r
 146             __syncthreads();\r
 147 \r
 148             if (threadIdx.x == 0)\r
 149             {\r
 150                 #pragma unroll\r
 151                 for (int i = 0; i < BLOCK_SIZE; ++i)\r
 152                 {\r
 153                     float val = s_distance[i];\r
 154 \r
 155                     if (val < myBestDistance1)\r
 156                     {\r
 157                         myBestDistance2 = myBestDistance1;\r
 158                         myBestTrainIdx2 = myBestTrainIdx1;\r
 159                         myBestImgIdx2   = myBestImgIdx1;\r
 160 \r
 161                         myBestDistance1 = val;\r
 162                         myBestTrainIdx1 = s_trainIdx[i];\r
 163                         myBestImgIdx1   = s_imgIdx[i];\r
 164                     }\r
 165                     else if (val < myBestDistance2)\r
 166                     {\r
 167                         myBestDistance2 = val;\r
 168                         myBestTrainIdx2 = s_trainIdx[i];\r
 169                         myBestImgIdx2   = s_imgIdx[i];\r
 170                     }\r
 171                 }\r
 172             }\r
 173 \r
 174             __syncthreads();\r
 175 \r
 176             s_distance[threadIdx.x] = bestDistance2;\r
 177             s_trainIdx[threadIdx.x] = bestTrainIdx2;\r
 178             s_imgIdx[threadIdx.x]   = bestImgIdx2;\r
 179 \r
 180             __syncthreads();\r
 181 \r
 182             if (threadIdx.x == 0)\r
 183             {\r
 184                 #pragma unroll\r
 185                 for (int i = 0; i < BLOCK_SIZE; ++i)\r
 186                 {\r
 187                     float val = s_distance[i];\r
 188 \r
 189                     if (val < myBestDistance2)\r
 190                     {\r
 191                         myBestDistance2 = val;\r
 192                         myBestTrainIdx2 = s_trainIdx[i];\r
 193                         myBestImgIdx2   = s_imgIdx[i];\r
 194                     }\r
 195                 }\r
 196             }\r
 197 \r
 198             bestDistance1 = myBestDistance1;\r
 199             bestDistance2 = myBestDistance2;\r
 200 \r
 201             bestTrainIdx1 = myBestTrainIdx1;\r
 202             bestTrainIdx2 = myBestTrainIdx2;\r
 203 \r
 204             bestImgIdx1 = myBestImgIdx1;\r
 205             bestImgIdx2 = myBestImgIdx2;\r
 206         }\r
 207 \r
 208         ///////////////////////////////////////////////////////////////////////////////\r
 209         // Match Unrolled Cached\r
 210 \r
 211         template <int BLOCK_SIZE, int MAX_DESC_LEN, typename T, typename U>\r
 212         __device__ void loadQueryToSmem(int queryIdx, const PtrStepSz<T>& query, U* s_query)\r
 213         {\r
 214             #pragma unroll\r
 215             for (int i = 0; i < MAX_DESC_LEN / BLOCK_SIZE; ++i)\r
 216             {\r
 217                 const int loadX = threadIdx.x + i * BLOCK_SIZE;\r
 218                 s_query[threadIdx.y * MAX_DESC_LEN + loadX] = loadX < query.cols ? query.ptr(::min(queryIdx, query.rows - 1))[loadX] : 0;\r
 219             }\r
 220         }\r
 221 \r
 222         template <int BLOCK_SIZE, int MAX_DESC_LEN, typename Dist, typename T, typename Mask>\r
 223         __device__ void loopUnrolledCached(int queryIdx, const PtrStepSz<T>& query, int imgIdx, const PtrStepSz<T>& train, const Mask& mask,\r
 224                                            typename Dist::value_type* s_query, typename Dist::value_type* s_train,\r
 225                                            float& bestDistance1, float& bestDistance2,\r
 226                                            int& bestTrainIdx1, int& bestTrainIdx2,\r
 227                                            int& bestImgIdx1, int& bestImgIdx2)\r
 228         {\r
 229             for (int t = 0, endt = (train.rows + BLOCK_SIZE - 1) / BLOCK_SIZE; t < endt; ++t)\r
 230             {\r
 231                 Dist dist;\r
 232 \r
 233                 #pragma unroll\r
 234                 for (int i = 0; i < MAX_DESC_LEN / BLOCK_SIZE; ++i)\r
 235                 {\r
 236                     const int loadX = threadIdx.x + i * BLOCK_SIZE;\r
 237 \r
 238                     s_train[threadIdx.x * BLOCK_SIZE + threadIdx.y] = 0;\r
 239 \r
 240                     if (loadX < train.cols)\r
 241                     {\r
 242                         T val;\r
 243 \r
 244                         ForceGlob<T>::Load(train.ptr(::min(t * BLOCK_SIZE + threadIdx.y, train.rows - 1)), loadX, val);\r
 245                         s_train[threadIdx.x * BLOCK_SIZE + threadIdx.y] = val;\r
 246                     }\r
 247 \r
 248                     __syncthreads();\r
 249 \r
 250                     #pragma unroll\r
 251                     for (int j = 0; j < BLOCK_SIZE; ++j)\r
 252                         dist.reduceIter(s_query[threadIdx.y * MAX_DESC_LEN + i * BLOCK_SIZE + j], s_train[j * BLOCK_SIZE + threadIdx.x]);\r
 253 \r
 254                     __syncthreads();\r
 255                 }\r
 256 \r
 257                 typename Dist::result_type distVal = dist;\r
 258 \r
 259                 const int trainIdx = t * BLOCK_SIZE + threadIdx.x;\r
 260 \r
 261                 if (queryIdx < query.rows && trainIdx < train.rows && mask(queryIdx, trainIdx))\r
 262                 {\r
 263                     if (distVal < bestDistance1)\r
 264                     {\r
 265                         bestImgIdx2   = bestImgIdx1;\r
 266                         bestDistance2 = bestDistance1;\r
 267                         bestTrainIdx2 = bestTrainIdx1;\r
 268 \r
 269                         bestImgIdx1   = imgIdx;\r
 270                         bestDistance1 = distVal;\r
 271                         bestTrainIdx1 = trainIdx;\r
 272                     }\r
 273                     else if (distVal < bestDistance2)\r
 274                     {\r
 275                         bestImgIdx2   = imgIdx;\r
 276                         bestDistance2 = distVal;\r
 277                         bestTrainIdx2 = trainIdx;\r
 278                     }\r
 279                 }\r
 280             }\r
 281         }\r
 282 \r
 283         template <int BLOCK_SIZE, int MAX_DESC_LEN, typename Dist, typename T, typename Mask>\r
 284         __global__ void matchUnrolledCached(const PtrStepSz<T> query, const PtrStepSz<T> train, const Mask mask, int2* bestTrainIdx, float2* bestDistance)\r
 285         {\r
 286             extern __shared__ int smem[];\r
 287 \r
 288             const int queryIdx = blockIdx.x * BLOCK_SIZE + threadIdx.y;\r
 289 \r
 290             typename Dist::value_type* s_query = (typename Dist::value_type*)(smem);\r
 291             typename Dist::value_type* s_train = (typename Dist::value_type*)(smem + BLOCK_SIZE * MAX_DESC_LEN);\r
 292 \r
 293             loadQueryToSmem<BLOCK_SIZE, MAX_DESC_LEN>(queryIdx, query, s_query);\r
 294 \r
 295             float myBestDistance1 = numeric_limits<float>::max();\r
 296             float myBestDistance2 = numeric_limits<float>::max();\r
 297             int myBestTrainIdx1 = -1;\r
 298             int myBestTrainIdx2 = -1;\r
 299 \r
 300             loopUnrolledCached<BLOCK_SIZE, MAX_DESC_LEN, Dist>(queryIdx, query, 0, train, mask, s_query, s_train, myBestDistance1, myBestDistance2, myBestTrainIdx1, myBestTrainIdx2, myBestTrainIdx1, myBestTrainIdx2);\r
 301 \r
 302             __syncthreads();\r
 303 \r
 304             float* s_distance = (float*)(smem);\r
 305             int* s_trainIdx = (int*)(smem + BLOCK_SIZE * BLOCK_SIZE);\r
 306 \r
 307             findBestMatch<BLOCK_SIZE>(myBestDistance1, myBestDistance2, myBestTrainIdx1, myBestTrainIdx2, s_distance, s_trainIdx);\r
 308 \r
 309             if (queryIdx < query.rows && threadIdx.x == 0)\r
 310             {\r
 311                 bestTrainIdx[queryIdx] = make_int2(myBestTrainIdx1, myBestTrainIdx2);\r
 312                 bestDistance[queryIdx] = make_float2(myBestDistance1, myBestDistance2);\r
 313             }\r
 314         }\r
 315 \r
 316         template <int BLOCK_SIZE, int MAX_DESC_LEN, typename Dist, typename T, typename Mask>\r
 317         void matchUnrolledCached(const PtrStepSz<T>& query, const PtrStepSz<T>& train, const Mask& mask,\r
 318                                  const PtrStepSz<int2>& trainIdx, const PtrStepSz<float2>& distance,\r
 319                                  cudaStream_t stream)\r
 320         {\r
 321             const dim3 block(BLOCK_SIZE, BLOCK_SIZE);\r
 322             const dim3 grid(divUp(query.rows, BLOCK_SIZE));\r
 323 \r
 324             const size_t smemSize = (BLOCK_SIZE * (MAX_DESC_LEN >= BLOCK_SIZE ? MAX_DESC_LEN : BLOCK_SIZE) + BLOCK_SIZE * BLOCK_SIZE) * sizeof(int);\r
 325 \r
 326             matchUnrolledCached<BLOCK_SIZE, MAX_DESC_LEN, Dist><<<grid, block, smemSize, stream>>>(query, train, mask, trainIdx.data, distance.data);\r
 327             cudaSafeCall( cudaGetLastError() );\r
 328 \r
 329             if (stream == 0)\r
 330                 cudaSafeCall( cudaDeviceSynchronize() );\r
 331         }\r
 332 \r
 333         template <int BLOCK_SIZE, int MAX_DESC_LEN, typename Dist, typename T, typename Mask>\r
 334         __global__ void matchUnrolledCached(const PtrStepSz<T> query, const PtrStepSz<T>* trains, int n, const Mask mask, int2* bestTrainIdx, int2* bestImgIdx, float2* bestDistance)\r
 335         {\r
 336             extern __shared__ int smem[];\r
 337 \r
 338             const int queryIdx = blockIdx.x * BLOCK_SIZE + threadIdx.y;\r
 339 \r
 340             typename Dist::value_type* s_query = (typename Dist::value_type*)(smem);\r
 341             typename Dist::value_type* s_train = (typename Dist::value_type*)(smem + BLOCK_SIZE * MAX_DESC_LEN);\r
 342 \r
 343             loadQueryToSmem<BLOCK_SIZE, MAX_DESC_LEN>(queryIdx, query, s_query);\r
 344 \r
 345             float myBestDistance1 = numeric_limits<float>::max();\r
 346             float myBestDistance2 = numeric_limits<float>::max();\r
 347             int myBestTrainIdx1 = -1;\r
 348             int myBestTrainIdx2 = -1;\r
 349             int myBestImgIdx1 = -1;\r
 350             int myBestImgIdx2 = -1;\r
 351 \r
 352             Mask m = mask;\r
 353 \r
 354             for (int imgIdx = 0; imgIdx < n; ++imgIdx)\r
 355             {\r
 356                 const PtrStepSz<T> train = trains[imgIdx];\r
 357                 m.next();\r
 358                 loopUnrolledCached<BLOCK_SIZE, MAX_DESC_LEN, Dist>(queryIdx, query, imgIdx, train, m, s_query, s_train, myBestDistance1, myBestDistance2, myBestTrainIdx1, myBestTrainIdx2, myBestImgIdx1, myBestImgIdx2);\r
 359             }\r
 360 \r
 361             __syncthreads();\r
 362 \r
 363             float* s_distance = (float*)(smem);\r
 364             int* s_trainIdx = (int*)(smem + BLOCK_SIZE * BLOCK_SIZE);\r
 365             int* s_imgIdx = (int*)(smem + 2 * BLOCK_SIZE * BLOCK_SIZE);\r
 366 \r
 367             findBestMatch<BLOCK_SIZE>(myBestDistance1, myBestDistance2, myBestTrainIdx1, myBestTrainIdx2, myBestImgIdx1, myBestImgIdx2, s_distance, s_trainIdx, s_imgIdx);\r
 368 \r
 369             if (queryIdx < query.rows && threadIdx.x == 0)\r
 370             {\r
 371                 bestTrainIdx[queryIdx] = make_int2(myBestTrainIdx1, myBestTrainIdx2);\r
 372                 bestImgIdx[queryIdx] = make_int2(myBestImgIdx1, myBestImgIdx2);\r
 373                 bestDistance[queryIdx] = make_float2(myBestDistance1, myBestDistance2);\r
 374             }\r
 375         }\r
 376 \r
 377         template <int BLOCK_SIZE, int MAX_DESC_LEN, typename Dist, typename T, typename Mask>\r
 378         void matchUnrolledCached(const PtrStepSz<T>& query, const PtrStepSz<T>* trains, int n, const Mask& mask,\r
 379                                  const PtrStepSz<int2>& trainIdx, const PtrStepSz<int2>& imgIdx, const PtrStepSz<float2>& distance,\r
 380                                  cudaStream_t stream)\r
 381         {\r
 382             const dim3 block(BLOCK_SIZE, BLOCK_SIZE);\r
 383             const dim3 grid(divUp(query.rows, BLOCK_SIZE));\r
 384 \r
 385             const size_t smemSize = (BLOCK_SIZE * (MAX_DESC_LEN >= 2 * BLOCK_SIZE ? MAX_DESC_LEN : 2 * BLOCK_SIZE) + BLOCK_SIZE * BLOCK_SIZE) * sizeof(int);\r
 386 \r
 387             matchUnrolledCached<BLOCK_SIZE, MAX_DESC_LEN, Dist><<<grid, block, smemSize, stream>>>(query, trains, n, mask, trainIdx.data, imgIdx.data, distance.data);\r
 388             cudaSafeCall( cudaGetLastError() );\r
 389 \r
 390             if (stream == 0)\r
 391                 cudaSafeCall( cudaDeviceSynchronize() );\r
 392         }\r
 393 \r
 394         ///////////////////////////////////////////////////////////////////////////////\r
 395         // Match Unrolled\r
 396 \r
 397         template <int BLOCK_SIZE, int MAX_DESC_LEN, typename Dist, typename T, typename Mask>\r
 398         __device__ void loopUnrolled(int queryIdx, const PtrStepSz<T>& query, int imgIdx, const PtrStepSz<T>& train, const Mask& mask,\r
 399                                      typename Dist::value_type* s_query, typename Dist::value_type* s_train,\r
 400                                      float& bestDistance1, float& bestDistance2,\r
 401                                      int& bestTrainIdx1, int& bestTrainIdx2,\r
 402                                      int& bestImgIdx1, int& bestImgIdx2)\r
 403         {\r
 404             for (int t = 0, endt = (train.rows + BLOCK_SIZE - 1) / BLOCK_SIZE; t < endt; ++t)\r
 405             {\r
 406                 Dist dist;\r
 407 \r
 408                 #pragma unroll\r
 409                 for (int i = 0; i < MAX_DESC_LEN / BLOCK_SIZE; ++i)\r
 410                 {\r
 411                     const int loadX = threadIdx.x + i * BLOCK_SIZE;\r
 412 \r
 413                     s_query[threadIdx.y * BLOCK_SIZE + threadIdx.x] = 0;\r
 414                     s_train[threadIdx.x * BLOCK_SIZE + threadIdx.y] = 0;\r
 415 \r
 416                     if (loadX < query.cols)\r
 417                     {\r
 418                         T val;\r
 419 \r
 420                         ForceGlob<T>::Load(query.ptr(::min(queryIdx, query.rows - 1)), loadX, val);\r
 421                         s_query[threadIdx.y * BLOCK_SIZE + threadIdx.x] = val;\r
 422 \r
 423                         ForceGlob<T>::Load(train.ptr(::min(t * BLOCK_SIZE + threadIdx.y, train.rows - 1)), loadX, val);\r
 424                         s_train[threadIdx.x * BLOCK_SIZE + threadIdx.y] = val;\r
 425                     }\r
 426 \r
 427                     __syncthreads();\r
 428 \r
 429                     #pragma unroll\r
 430                     for (int j = 0; j < BLOCK_SIZE; ++j)\r
 431                         dist.reduceIter(s_query[threadIdx.y * BLOCK_SIZE + j], s_train[j * BLOCK_SIZE + threadIdx.x]);\r
 432 \r
 433                     __syncthreads();\r
 434                 }\r
 435 \r
 436                 typename Dist::result_type distVal = dist;\r
 437 \r
 438                 const int trainIdx = t * BLOCK_SIZE + threadIdx.x;\r
 439 \r
 440                 if (queryIdx < query.rows && trainIdx < train.rows && mask(queryIdx, trainIdx))\r
 441                 {\r
 442                     if (distVal < bestDistance1)\r
 443                     {\r
 444                         bestImgIdx2   = bestImgIdx1;\r
 445                         bestDistance2 = bestDistance1;\r
 446                         bestTrainIdx2 = bestTrainIdx1;\r
 447 \r
 448                         bestImgIdx1   = imgIdx;\r
 449                         bestDistance1 = distVal;\r
 450                         bestTrainIdx1 = trainIdx;\r
 451                     }\r
 452                     else if (distVal < bestDistance2)\r
 453                     {\r
 454                         bestImgIdx2   = imgIdx;\r
 455                         bestDistance2 = distVal;\r
 456                         bestTrainIdx2 = trainIdx;\r
 457                     }\r
 458                 }\r
 459             }\r
 460         }\r
 461 \r
 462         template <int BLOCK_SIZE, int MAX_DESC_LEN, typename Dist, typename T, typename Mask>\r
 463         __global__ void matchUnrolled(const PtrStepSz<T> query, const PtrStepSz<T> train, const Mask mask, int2* bestTrainIdx, float2* bestDistance)\r
 464         {\r
 465             extern __shared__ int smem[];\r
 466 \r
 467             const int queryIdx = blockIdx.x * BLOCK_SIZE + threadIdx.y;\r
 468 \r
 469             typename Dist::value_type* s_query = (typename Dist::value_type*)(smem);\r
 470             typename Dist::value_type* s_train = (typename Dist::value_type*)(smem + BLOCK_SIZE * BLOCK_SIZE);\r
 471 \r
 472             float myBestDistance1 = numeric_limits<float>::max();\r
 473             float myBestDistance2 = numeric_limits<float>::max();\r
 474             int myBestTrainIdx1 = -1;\r
 475             int myBestTrainIdx2 = -1;\r
 476 \r
 477             loopUnrolled<BLOCK_SIZE, MAX_DESC_LEN, Dist>(queryIdx, query, 0, train, mask, s_query, s_train, myBestDistance1, myBestDistance2, myBestTrainIdx1, myBestTrainIdx2, myBestTrainIdx1, myBestTrainIdx2);\r
 478 \r
 479             __syncthreads();\r
 480 \r
 481             float* s_distance = (float*)(smem);\r
 482             int* s_trainIdx = (int*)(smem + BLOCK_SIZE * BLOCK_SIZE);\r
 483 \r
 484             findBestMatch<BLOCK_SIZE>(myBestDistance1, myBestDistance2, myBestTrainIdx1, myBestTrainIdx2, s_distance, s_trainIdx);\r
 485 \r
 486             if (queryIdx < query.rows && threadIdx.x == 0)\r
 487             {\r
 488                 bestTrainIdx[queryIdx] = make_int2(myBestTrainIdx1, myBestTrainIdx2);\r
 489                 bestDistance[queryIdx] = make_float2(myBestDistance1, myBestDistance2);\r
 490             }\r
 491         }\r
 492 \r
 493         template <int BLOCK_SIZE, int MAX_DESC_LEN, typename Dist, typename T, typename Mask>\r
 494         void matchUnrolled(const PtrStepSz<T>& query, const PtrStepSz<T>& train, const Mask& mask,\r
 495                            const PtrStepSz<int2>& trainIdx, const PtrStepSz<float2>& distance,\r
 496                            cudaStream_t stream)\r
 497         {\r
 498             const dim3 block(BLOCK_SIZE, BLOCK_SIZE);\r
 499             const dim3 grid(divUp(query.rows, BLOCK_SIZE));\r
 500 \r
 501             const size_t smemSize = (2 * BLOCK_SIZE * BLOCK_SIZE) * sizeof(int);\r
 502 \r
 503             matchUnrolled<BLOCK_SIZE, MAX_DESC_LEN, Dist><<<grid, block, smemSize, stream>>>(query, train, mask, trainIdx.data, distance.data);\r
 504             cudaSafeCall( cudaGetLastError() );\r
 505 \r
 506             if (stream == 0)\r
 507                 cudaSafeCall( cudaDeviceSynchronize() );\r
 508         }\r
 509 \r
 510         template <int BLOCK_SIZE, int MAX_DESC_LEN, typename Dist, typename T, typename Mask>\r
 511         __global__ void matchUnrolled(const PtrStepSz<T> query, const PtrStepSz<T>* trains, int n, const Mask mask, int2* bestTrainIdx, int2* bestImgIdx, float2* bestDistance)\r
 512         {\r
 513             extern __shared__ int smem[];\r
 514 \r
 515             const int queryIdx = blockIdx.x * BLOCK_SIZE + threadIdx.y;\r
 516 \r
 517             typename Dist::value_type* s_query = (typename Dist::value_type*)(smem);\r
 518             typename Dist::value_type* s_train = (typename Dist::value_type*)(smem + BLOCK_SIZE * BLOCK_SIZE);\r
 519 \r
 520             float myBestDistance1 = numeric_limits<float>::max();\r
 521             float myBestDistance2 = numeric_limits<float>::max();\r
 522             int myBestTrainIdx1 = -1;\r
 523             int myBestTrainIdx2 = -1;\r
 524             int myBestImgIdx1 = -1;\r
 525             int myBestImgIdx2 = -1;\r
 526 \r
 527             Mask m = mask;\r
 528 \r
 529             for (int imgIdx = 0; imgIdx < n; ++imgIdx)\r
 530             {\r
 531                 const PtrStepSz<T> train = trains[imgIdx];\r
 532                 m.next();\r
 533                 loopUnrolled<BLOCK_SIZE, MAX_DESC_LEN, Dist>(queryIdx, query, imgIdx, train, m, s_query, s_train, myBestDistance1, myBestDistance2, myBestTrainIdx1, myBestTrainIdx2, myBestImgIdx1, myBestImgIdx2);\r
 534             }\r
 535 \r
 536             __syncthreads();\r
 537 \r
 538             float* s_distance = (float*)(smem);\r
 539             int* s_trainIdx = (int*)(smem + BLOCK_SIZE * BLOCK_SIZE);\r
 540             int* s_imgIdx = (int*)(smem + 2 * BLOCK_SIZE * BLOCK_SIZE);\r
 541 \r
 542             findBestMatch<BLOCK_SIZE>(myBestDistance1, myBestDistance2, myBestTrainIdx1, myBestTrainIdx2, myBestImgIdx1, myBestImgIdx2, s_distance, s_trainIdx, s_imgIdx);\r
 543 \r
 544             if (queryIdx < query.rows && threadIdx.x == 0)\r
 545             {\r
 546                 bestTrainIdx[queryIdx] = make_int2(myBestTrainIdx1, myBestTrainIdx2);\r
 547                 bestImgIdx[queryIdx] = make_int2(myBestImgIdx1, myBestImgIdx2);\r
 548                 bestDistance[queryIdx] = make_float2(myBestDistance1, myBestDistance2);\r
 549             }\r
 550         }\r
 551 \r
 552         template <int BLOCK_SIZE, int MAX_DESC_LEN, typename Dist, typename T, typename Mask>\r
 553         void matchUnrolled(const PtrStepSz<T>& query, const PtrStepSz<T>* trains, int n, const Mask& mask,\r
 554                            const PtrStepSz<int2>& trainIdx, const PtrStepSz<int2>& imgIdx, const PtrStepSz<float2>& distance,\r
 555                            cudaStream_t stream)\r
 556         {\r
 557             const dim3 block(BLOCK_SIZE, BLOCK_SIZE);\r
 558             const dim3 grid(divUp(query.rows, BLOCK_SIZE));\r
 559 \r
 560             const size_t smemSize = (3 * BLOCK_SIZE * BLOCK_SIZE) * sizeof(int);\r
 561 \r
 562             matchUnrolled<BLOCK_SIZE, MAX_DESC_LEN, Dist><<<grid, block, smemSize, stream>>>(query, trains, n, mask, trainIdx.data, imgIdx.data, distance.data);\r
 563             cudaSafeCall( cudaGetLastError() );\r
 564 \r
 565             if (stream == 0)\r
 566                 cudaSafeCall( cudaDeviceSynchronize() );\r
 567         }\r
 568 \r
 569         ///////////////////////////////////////////////////////////////////////////////\r
 570         // Match\r
 571 \r
 572         template <int BLOCK_SIZE, typename Dist, typename T, typename Mask>\r
 573         __device__ void loop(int queryIdx, const PtrStepSz<T>& query, int imgIdx, const PtrStepSz<T>& train, const Mask& mask,\r
 574                              typename Dist::value_type* s_query, typename Dist::value_type* s_train,\r
 575                              float& bestDistance1, float& bestDistance2,\r
 576                              int& bestTrainIdx1, int& bestTrainIdx2,\r
 577                              int& bestImgIdx1, int& bestImgIdx2)\r
 578         {\r
 579             for (int t = 0, endt = (train.rows + BLOCK_SIZE - 1) / BLOCK_SIZE; t < endt; ++t)\r
 580             {\r
 581                 Dist dist;\r
 582 \r
 583                 for (int i = 0, endi = (query.cols + BLOCK_SIZE - 1) / BLOCK_SIZE; i < endi; ++i)\r
 584                 {\r
 585                     const int loadX = threadIdx.x + i * BLOCK_SIZE;\r
 586 \r
 587                     s_query[threadIdx.y * BLOCK_SIZE + threadIdx.x] = 0;\r
 588                     s_train[threadIdx.x * BLOCK_SIZE + threadIdx.y] = 0;\r
 589 \r
 590                     if (loadX < query.cols)\r
 591                     {\r
 592                         T val;\r
 593 \r
 594                         ForceGlob<T>::Load(query.ptr(::min(queryIdx, query.rows - 1)), loadX, val);\r
 595                         s_query[threadIdx.y * BLOCK_SIZE + threadIdx.x] = val;\r
 596 \r
 597                         ForceGlob<T>::Load(train.ptr(::min(t * BLOCK_SIZE + threadIdx.y, train.rows - 1)), loadX, val);\r
 598                         s_train[threadIdx.x * BLOCK_SIZE + threadIdx.y] = val;\r
 599                     }\r
 600 \r
 601                     __syncthreads();\r
 602 \r
 603                     #pragma unroll\r
 604                     for (int j = 0; j < BLOCK_SIZE; ++j)\r
 605                         dist.reduceIter(s_query[threadIdx.y * BLOCK_SIZE + j], s_train[j * BLOCK_SIZE + threadIdx.x]);\r
 606 \r
 607                     __syncthreads();\r
 608                 }\r
 609 \r
 610                 typename Dist::result_type distVal = dist;\r
 611 \r
 612                 const int trainIdx = t * BLOCK_SIZE + threadIdx.x;\r
 613 \r
 614                 if (queryIdx < query.rows && trainIdx < train.rows && mask(queryIdx, trainIdx))\r
 615                 {\r
 616                     if (distVal < bestDistance1)\r
 617                     {\r
 618                         bestImgIdx2   = bestImgIdx1;\r
 619                         bestDistance2 = bestDistance1;\r
 620                         bestTrainIdx2 = bestTrainIdx1;\r
 621 \r
 622                         bestImgIdx1   = imgIdx;\r
 623                         bestDistance1 = distVal;\r
 624                         bestTrainIdx1 = trainIdx;\r
 625                     }\r
 626                     else if (distVal < bestDistance2)\r
 627                     {\r
 628                         bestImgIdx2   = imgIdx;\r
 629                         bestDistance2 = distVal;\r
 630                         bestTrainIdx2 = trainIdx;\r
 631                     }\r
 632                 }\r
 633             }\r
 634         }\r
 635 \r
 636         template <int BLOCK_SIZE, typename Dist, typename T, typename Mask>\r
 637         __global__ void match(const PtrStepSz<T> query, const PtrStepSz<T> train, const Mask mask, int2* bestTrainIdx, float2* bestDistance)\r
 638         {\r
 639             extern __shared__ int smem[];\r
 640 \r
 641             const int queryIdx = blockIdx.x * BLOCK_SIZE + threadIdx.y;\r
 642 \r
 643             typename Dist::value_type* s_query = (typename Dist::value_type*)(smem);\r
 644             typename Dist::value_type* s_train = (typename Dist::value_type*)(smem + BLOCK_SIZE * BLOCK_SIZE);\r
 645 \r
 646             float myBestDistance1 = numeric_limits<float>::max();\r
 647             float myBestDistance2 = numeric_limits<float>::max();\r
 648             int myBestTrainIdx1 = -1;\r
 649             int myBestTrainIdx2 = -1;\r
 650 \r
 651             loop<BLOCK_SIZE, Dist>(queryIdx, query, 0, train, mask, s_query, s_train, myBestDistance1, myBestDistance2, myBestTrainIdx1, myBestTrainIdx2, myBestTrainIdx1, myBestTrainIdx2);\r
 652 \r
 653             __syncthreads();\r
 654 \r
 655             float* s_distance = (float*)(smem);\r
 656             int* s_trainIdx = (int*)(smem + BLOCK_SIZE * BLOCK_SIZE);\r
 657 \r
 658             findBestMatch<BLOCK_SIZE>(myBestDistance1, myBestDistance2, myBestTrainIdx1, myBestTrainIdx2, s_distance, s_trainIdx);\r
 659 \r
 660             if (queryIdx < query.rows && threadIdx.x == 0)\r
 661             {\r
 662                 bestTrainIdx[queryIdx] = make_int2(myBestTrainIdx1, myBestTrainIdx2);\r
 663                 bestDistance[queryIdx] = make_float2(myBestDistance1, myBestDistance2);\r
 664             }\r
 665         }\r
 666 \r
 667         template <int BLOCK_SIZE, typename Dist, typename T, typename Mask>\r
 668         void match(const PtrStepSz<T>& query, const PtrStepSz<T>& train, const Mask& mask,\r
 669                    const PtrStepSz<int2>& trainIdx, const PtrStepSz<float2>& distance,\r
 670                    cudaStream_t stream)\r
 671         {\r
 672             const dim3 block(BLOCK_SIZE, BLOCK_SIZE);\r
 673             const dim3 grid(divUp(query.rows, BLOCK_SIZE));\r
 674 \r
 675             const size_t smemSize = (2 * BLOCK_SIZE * BLOCK_SIZE) * sizeof(int);\r
 676 \r
 677             match<BLOCK_SIZE, Dist><<<grid, block, smemSize, stream>>>(query, train, mask, trainIdx.data, distance.data);\r
 678             cudaSafeCall( cudaGetLastError() );\r
 679 \r
 680             if (stream == 0)\r
 681                 cudaSafeCall( cudaDeviceSynchronize() );\r
 682         }\r
 683 \r
 684         template <int BLOCK_SIZE, typename Dist, typename T, typename Mask>\r
 685         __global__ void match(const PtrStepSz<T> query, const PtrStepSz<T>* trains, int n, const Mask mask, int2* bestTrainIdx, int2* bestImgIdx, float2* bestDistance)\r
 686         {\r
 687             extern __shared__ int smem[];\r
 688 \r
 689             const int queryIdx = blockIdx.x * BLOCK_SIZE + threadIdx.y;\r
 690 \r
 691             typename Dist::value_type* s_query = (typename Dist::value_type*)(smem);\r
 692             typename Dist::value_type* s_train = (typename Dist::value_type*)(smem + BLOCK_SIZE * BLOCK_SIZE);\r
 693 \r
 694             float myBestDistance1 = numeric_limits<float>::max();\r
 695             float myBestDistance2 = numeric_limits<float>::max();\r
 696             int myBestTrainIdx1 = -1;\r
 697             int myBestTrainIdx2 = -1;\r
 698             int myBestImgIdx1 = -1;\r
 699             int myBestImgIdx2 = -1;\r
 700 \r
 701             Mask m = mask;\r
 702 \r
 703             for (int imgIdx = 0; imgIdx < n; ++imgIdx)\r
 704             {\r
 705                 const PtrStepSz<T> train = trains[imgIdx];\r
 706                 m.next();\r
 707                 loop<BLOCK_SIZE, Dist>(queryIdx, query, imgIdx, train, m, s_query, s_train, myBestDistance1, myBestDistance2, myBestTrainIdx1, myBestTrainIdx2, myBestImgIdx1, myBestImgIdx2);\r
 708             }\r
 709 \r
 710             __syncthreads();\r
 711 \r
 712             float* s_distance = (float*)(smem);\r
 713             int* s_trainIdx = (int*)(smem + BLOCK_SIZE * BLOCK_SIZE);\r
 714             int* s_imgIdx = (int*)(smem + 2 * BLOCK_SIZE * BLOCK_SIZE);\r
 715 \r
 716             findBestMatch<BLOCK_SIZE>(myBestDistance1, myBestDistance2, myBestTrainIdx1, myBestTrainIdx2, myBestImgIdx1, myBestImgIdx2, s_distance, s_trainIdx, s_imgIdx);\r
 717 \r
 718             if (queryIdx < query.rows && threadIdx.x == 0)\r
 719             {\r
 720                 bestTrainIdx[queryIdx] = make_int2(myBestTrainIdx1, myBestTrainIdx2);\r
 721                 bestImgIdx[queryIdx] = make_int2(myBestImgIdx1, myBestImgIdx2);\r
 722                 bestDistance[queryIdx] = make_float2(myBestDistance1, myBestDistance2);\r
 723             }\r
 724         }\r
 725 \r
 726         template <int BLOCK_SIZE, typename Dist, typename T, typename Mask>\r
 727         void match(const PtrStepSz<T>& query, const PtrStepSz<T>* trains, int n, const Mask& mask,\r
 728                    const PtrStepSz<int2>& trainIdx, const PtrStepSz<int2>& imgIdx, const PtrStepSz<float2>& distance,\r
 729                    cudaStream_t stream)\r
 730         {\r
 731             const dim3 block(BLOCK_SIZE, BLOCK_SIZE);\r
 732             const dim3 grid(divUp(query.rows, BLOCK_SIZE));\r
 733 \r
 734             const size_t smemSize = (3 * BLOCK_SIZE * BLOCK_SIZE) * sizeof(int);\r
 735 \r
 736             match<BLOCK_SIZE, Dist><<<grid, block, smemSize, stream>>>(query, trains, n, mask, trainIdx.data, imgIdx.data, distance.data);\r
 737             cudaSafeCall( cudaGetLastError() );\r
 738 \r
 739             if (stream == 0)\r
 740                 cudaSafeCall( cudaDeviceSynchronize() );\r
 741         }\r
 742 \r
 743         ///////////////////////////////////////////////////////////////////////////////\r
 744         // knnMatch 2 dispatcher\r
 745 \r
 746         template <typename Dist, typename T, typename Mask>\r
 747         void match2Dispatcher(const PtrStepSz<T>& query, const PtrStepSz<T>& train, const Mask& mask,\r
 748                               const PtrStepSzb& trainIdx, const PtrStepSzb& distance,\r
 749                               int cc, cudaStream_t stream)\r
 750         {\r
 751             (void)cc;\r
 752             if (query.cols <= 64)\r
 753             {\r
 754                 matchUnrolledCached<16, 64, Dist>(query, train, mask, static_cast< PtrStepSz<int2> >(trainIdx), static_cast< PtrStepSz<float2> > (distance), stream);\r
 755             }\r
 756             else if (query.cols <= 128)\r
 757             {\r
 758                 matchUnrolledCached<16, 128, Dist>(query, train, mask, static_cast< PtrStepSz<int2> >(trainIdx), static_cast< PtrStepSz<float2> > (distance), stream);\r
 759             }\r
 760             /*else if (query.cols <= 256)\r
 761             {\r
 762                 matchUnrolled<16, 256, Dist>(query, train, mask, static_cast< PtrStepSz<int2> >(trainIdx), static_cast< PtrStepSz<float2> > (distance), stream);\r
 763             }\r
 764             else if (query.cols <= 512)\r
 765             {\r
 766                 matchUnrolled<16, 512, Dist>(query, train, mask, static_cast< PtrStepSz<int2> >(trainIdx), static_cast< PtrStepSz<float2> > (distance), stream);\r
 767             }\r
 768             else if (query.cols <= 1024)\r
 769             {\r
 770                 matchUnrolled<16, 1024, Dist>(query, train, mask, static_cast< PtrStepSz<int2> >(trainIdx), static_cast< PtrStepSz<float2> > (distance), stream);\r
 771             }*/\r
 772             else\r
 773             {\r
 774                 match<16, Dist>(query, train, mask, static_cast< PtrStepSz<int2> >(trainIdx), static_cast< PtrStepSz<float2> > (distance), stream);\r
 775             }\r
 776         }\r
 777 \r
 778         template <typename Dist, typename T, typename Mask>\r
 779         void match2Dispatcher(const PtrStepSz<T>& query, const PtrStepSz<T>* trains, int n, const Mask& mask,\r
 780                               const PtrStepSzb& trainIdx, const PtrStepSzb& imgIdx, const PtrStepSzb& distance,\r
 781                               int cc, cudaStream_t stream)\r
 782         {\r
 783             (void)cc;\r
 784             if (query.cols <= 64)\r
 785             {\r
 786                 matchUnrolledCached<16, 64, Dist>(query, trains, n, mask, static_cast< PtrStepSz<int2> >(trainIdx), static_cast< PtrStepSz<int2> >(imgIdx), static_cast< PtrStepSz<float2> > (distance), stream);\r
 787             }\r
 788             else if (query.cols <= 128)\r
 789             {\r
 790                 matchUnrolledCached<16, 128, Dist>(query, trains, n, mask, static_cast< PtrStepSz<int2> >(trainIdx), static_cast< PtrStepSz<int2> >(imgIdx), static_cast< PtrStepSz<float2> > (distance), stream);\r
 791             }\r
 792             /*else if (query.cols <= 256)\r
 793             {\r
 794                 matchUnrolled<16, 256, Dist>(query, trains, n, mask, static_cast< PtrStepSz<int2> >(trainIdx), static_cast< PtrStepSz<int2> >(imgIdx), static_cast< PtrStepSz<float2> > (distance), stream);\r
 795             }\r
 796             else if (query.cols <= 512)\r
 797             {\r
 798                 matchUnrolled<16, 512, Dist>(query, trains, n, mask, static_cast< PtrStepSz<int2> >(trainIdx), static_cast< PtrStepSz<int2> >(imgIdx), static_cast< PtrStepSz<float2> > (distance), stream);\r
 799             }\r
 800             else if (query.cols <= 1024)\r
 801             {\r
 802                 matchUnrolled<16, 1024, Dist>(query, trains, n, mask, static_cast< PtrStepSz<int2> >(trainIdx), static_cast< PtrStepSz<int2> >(imgIdx), static_cast< PtrStepSz<float2> > (distance), stream);\r
 803             }*/\r
 804             else\r
 805             {\r
 806                 match<16, Dist>(query, trains, n, mask, static_cast< PtrStepSz<int2> >(trainIdx), static_cast< PtrStepSz<int2> >(imgIdx), static_cast< PtrStepSz<float2> > (distance), stream);\r
 807             }\r
 808         }\r
 809 \r
 810         ///////////////////////////////////////////////////////////////////////////////\r
 811         // Calc distance kernel\r
 812 \r
 813         template <int BLOCK_SIZE, int MAX_DESC_LEN, typename Dist, typename T, typename Mask>\r
 814         __global__ void calcDistanceUnrolled(const PtrStepSz<T> query, const PtrStepSz<T> train, const Mask mask, PtrStepf allDist)\r
 815         {\r
 816             extern __shared__ int smem[];\r
 817 \r
 818             const int queryIdx = blockIdx.y * BLOCK_SIZE + threadIdx.y;\r
 819             const int trainIdx = blockIdx.x * BLOCK_SIZE + threadIdx.x;\r
 820 \r
 821             typename Dist::value_type* s_query = (typename Dist::value_type*)(smem);\r
 822             typename Dist::value_type* s_train = (typename Dist::value_type*)(smem + BLOCK_SIZE * BLOCK_SIZE);\r
 823 \r
 824             Dist dist;\r
 825 \r
 826             #pragma unroll\r
 827             for (int i = 0; i < MAX_DESC_LEN / BLOCK_SIZE; ++i)\r
 828             {\r
 829                 const int loadX = threadIdx.x + i * BLOCK_SIZE;\r
 830 \r
 831                 if (loadX < query.cols)\r
 832                 {\r
 833                     s_query[threadIdx.y * BLOCK_SIZE + threadIdx.x] = query.ptr(::min(queryIdx, query.rows - 1))[loadX];\r
 834                     s_train[threadIdx.x * BLOCK_SIZE + threadIdx.y] = train.ptr(::min(blockIdx.x * BLOCK_SIZE + threadIdx.y, train.rows - 1))[loadX];\r
 835                 }\r
 836                 else\r
 837                 {\r
 838                     s_query[threadIdx.y * BLOCK_SIZE + threadIdx.x] = 0;\r
 839                     s_train[threadIdx.x * BLOCK_SIZE + threadIdx.y] = 0;\r
 840                 }\r
 841 \r
 842                 __syncthreads();\r
 843 \r
 844                 #pragma unroll\r
 845                 for (int j = 0; j < BLOCK_SIZE; ++j)\r
 846                     dist.reduceIter(s_query[threadIdx.y * BLOCK_SIZE + j], s_train[j * BLOCK_SIZE + threadIdx.x]);\r
 847 \r
 848                 __syncthreads();\r
 849             }\r
 850 \r
 851             if (queryIdx < query.rows && trainIdx < train.rows)\r
 852             {\r
 853                 float distVal = numeric_limits<float>::max();\r
 854 \r
 855                 if (mask(queryIdx, trainIdx))\r
 856                     distVal = (typename Dist::result_type)dist;\r
 857 \r
 858                 allDist.ptr(queryIdx)[trainIdx] = distVal;\r
 859             }\r
 860         }\r
 861 \r
 862         template <int BLOCK_SIZE, int MAX_DESC_LEN, typename Dist, typename T, typename Mask>\r
 863         void calcDistanceUnrolled(const PtrStepSz<T>& query, const PtrStepSz<T>& train, const Mask& mask, const PtrStepSzf& allDist, cudaStream_t stream)\r
 864         {\r
 865             const dim3 block(BLOCK_SIZE, BLOCK_SIZE);\r
 866             const dim3 grid(divUp(train.rows, BLOCK_SIZE), divUp(query.rows, BLOCK_SIZE));\r
 867 \r
 868             const size_t smemSize = (2 * BLOCK_SIZE * BLOCK_SIZE) * sizeof(int);\r
 869 \r
 870             calcDistanceUnrolled<BLOCK_SIZE, MAX_DESC_LEN, Dist><<<grid, block, smemSize, stream>>>(query, train, mask, allDist);\r
 871             cudaSafeCall( cudaGetLastError() );\r
 872 \r
 873             if (stream == 0)\r
 874                 cudaSafeCall( cudaDeviceSynchronize() );\r
 875         }\r
 876 \r
 877         template <int BLOCK_SIZE, typename Dist, typename T, typename Mask>\r
 878         __global__ void calcDistance(const PtrStepSz<T> query, const PtrStepSz<T> train, const Mask mask, PtrStepf allDist)\r
 879         {\r
 880             extern __shared__ int smem[];\r
 881 \r
 882             const int queryIdx = blockIdx.y * BLOCK_SIZE + threadIdx.y;\r
 883             const int trainIdx = blockIdx.x * BLOCK_SIZE + threadIdx.x;\r
 884 \r
 885             typename Dist::value_type* s_query = (typename Dist::value_type*)(smem);\r
 886             typename Dist::value_type* s_train = (typename Dist::value_type*)(smem + BLOCK_SIZE * BLOCK_SIZE);\r
 887 \r
 888             Dist dist;\r
 889 \r
 890             for (int i = 0, endi = (query.cols + BLOCK_SIZE - 1) / BLOCK_SIZE; i < endi; ++i)\r
 891             {\r
 892                 const int loadX = threadIdx.x + i * BLOCK_SIZE;\r
 893 \r
 894                 if (loadX < query.cols)\r
 895                 {\r
 896                     s_query[threadIdx.y * BLOCK_SIZE + threadIdx.x] = query.ptr(::min(queryIdx, query.rows - 1))[loadX];\r
 897                     s_train[threadIdx.x * BLOCK_SIZE + threadIdx.y] = train.ptr(::min(blockIdx.x * BLOCK_SIZE + threadIdx.y, train.rows - 1))[loadX];\r
 898                 }\r
 899                 else\r
 900                 {\r
 901                     s_query[threadIdx.y * BLOCK_SIZE + threadIdx.x] = 0;\r
 902                     s_train[threadIdx.x * BLOCK_SIZE + threadIdx.y] = 0;\r
 903                 }\r
 904 \r
 905                 __syncthreads();\r
 906 \r
 907                 #pragma unroll\r
 908                 for (int j = 0; j < BLOCK_SIZE; ++j)\r
 909                     dist.reduceIter(s_query[threadIdx.y * BLOCK_SIZE + j], s_train[j * BLOCK_SIZE + threadIdx.x]);\r
 910 \r
 911                 __syncthreads();\r
 912             }\r
 913 \r
 914             if (queryIdx < query.rows && trainIdx < train.rows)\r
 915             {\r
 916                 float distVal = numeric_limits<float>::max();\r
 917 \r
 918                 if (mask(queryIdx, trainIdx))\r
 919                     distVal = (typename Dist::result_type)dist;\r
 920 \r
 921                 allDist.ptr(queryIdx)[trainIdx] = distVal;\r
 922             }\r
 923         }\r
 924 \r
 925         template <int BLOCK_SIZE, typename Dist, typename T, typename Mask>\r
 926         void calcDistance(const PtrStepSz<T>& query, const PtrStepSz<T>& train, const Mask& mask, const PtrStepSzf& allDist, cudaStream_t stream)\r
 927         {\r
 928             const dim3 block(BLOCK_SIZE, BLOCK_SIZE);\r
 929             const dim3 grid(divUp(train.rows, BLOCK_SIZE), divUp(query.rows, BLOCK_SIZE));\r
 930 \r
 931             const size_t smemSize = (2 * BLOCK_SIZE * BLOCK_SIZE) * sizeof(int);\r
 932 \r
 933             calcDistance<BLOCK_SIZE, Dist><<<grid, block, smemSize, stream>>>(query, train, mask, allDist);\r
 934             cudaSafeCall( cudaGetLastError() );\r
 935 \r
 936             if (stream == 0)\r
 937                 cudaSafeCall( cudaDeviceSynchronize() );\r
 938         }\r
 939 \r
 940         ///////////////////////////////////////////////////////////////////////////////\r
 941         // Calc Distance dispatcher\r
 942 \r
 943         template <typename Dist, typename T, typename Mask>\r
 944         void calcDistanceDispatcher(const PtrStepSz<T>& query, const PtrStepSz<T>& train, const Mask& mask,\r
 945                                     const PtrStepSzf& allDist,\r
 946                                     int cc, cudaStream_t stream)\r
 947         {\r
 948             (void)cc;\r
 949             if (query.cols <= 64)\r
 950             {\r
 951                 calcDistanceUnrolled<16, 64, Dist>(query, train, mask, allDist, stream);\r
 952             }\r
 953             else if (query.cols <= 128)\r
 954             {\r
 955                 calcDistanceUnrolled<16, 128, Dist>(query, train, mask, allDist, stream);\r
 956             }\r
 957             /*else if (query.cols <= 256)\r
 958             {\r
 959                 calcDistanceUnrolled<16, 256, Dist>(query, train, mask, allDist, stream);\r
 960             }\r
 961             else if (query.cols <= 512)\r
 962             {\r
 963                 calcDistanceUnrolled<16, 512, Dist>(query, train, mask, allDist, stream);\r
 964             }\r
 965             else if (query.cols <= 1024)\r
 966             {\r
 967                 calcDistanceUnrolled<16, 1024, Dist>(query, train, mask, allDist, stream);\r
 968             }*/\r
 969             else\r
 970             {\r
 971                 calcDistance<16, Dist>(query, train, mask, allDist, stream);\r
 972             }\r
 973         }\r
 974 \r
 975         ///////////////////////////////////////////////////////////////////////////////\r
 976         // find knn match kernel\r
 977 \r
 978         template <int BLOCK_SIZE>\r
 979         __global__ void findBestMatch(PtrStepSzf allDist, int i, PtrStepi trainIdx, PtrStepf distance)\r
 980         {\r
 981             const int SMEM_SIZE = BLOCK_SIZE > 64 ? BLOCK_SIZE : 64;\r
 982             __shared__ float s_dist[SMEM_SIZE];\r
 983             __shared__ int s_trainIdx[SMEM_SIZE];\r
 984 \r
 985             const int queryIdx = blockIdx.x;\r
 986 \r
 987             float* allDistRow = allDist.ptr(queryIdx);\r
 988 \r
 989             float dist = numeric_limits<float>::max();\r
 990             int bestIdx = -1;\r
 991 \r
 992             for (int i = threadIdx.x; i < allDist.cols; i += BLOCK_SIZE)\r
 993             {\r
 994                 float reg = allDistRow[i];\r
 995                 if (reg < dist)\r
 996                 {\r
 997                     dist = reg;\r
 998                     bestIdx = i;\r
 999                 }\r
1000             }\r
1001 \r
1002             s_dist[threadIdx.x] = dist;\r
1003             s_trainIdx[threadIdx.x] = bestIdx;\r
1004             __syncthreads();\r
1005 \r
1006             reducePredVal<BLOCK_SIZE>(s_dist, dist, s_trainIdx, bestIdx, threadIdx.x, less<volatile float>());\r
1007 \r
1008             if (threadIdx.x == 0)\r
1009             {\r
1010                 if (dist < numeric_limits<float>::max())\r
1011                 {\r
1012                     allDistRow[bestIdx] = numeric_limits<float>::max();\r
1013                     trainIdx.ptr(queryIdx)[i] = bestIdx;\r
1014                     distance.ptr(queryIdx)[i] = dist;\r
1015                 }\r
1016             }\r
1017         }\r
1018 \r
1019         template <int BLOCK_SIZE>\r
1020         void findKnnMatch(int k, const PtrStepSzi& trainIdx, const PtrStepSzf& distance, const PtrStepSzf& allDist, cudaStream_t stream)\r
1021         {\r
1022             const dim3 block(BLOCK_SIZE, 1, 1);\r
1023             const dim3 grid(trainIdx.rows, 1, 1);\r
1024 \r
1025             for (int i = 0; i < k; ++i)\r
1026             {\r
1027                 findBestMatch<BLOCK_SIZE><<<grid, block, 0, stream>>>(allDist, i, trainIdx, distance);\r
1028                 cudaSafeCall( cudaGetLastError() );\r
1029             }\r
1030 \r
1031             if (stream == 0)\r
1032                 cudaSafeCall( cudaDeviceSynchronize() );\r
1033         }\r
1034 \r
1035         void findKnnMatchDispatcher(int k, const PtrStepSzb& trainIdx, const PtrStepSzb& distance, const PtrStepSzf& allDist, int cc, cudaStream_t stream)\r
1036         {\r
1037             findKnnMatch<256>(k, static_cast<PtrStepSzi>(trainIdx), static_cast<PtrStepSzf>(distance), allDist, stream);\r
1038         }\r
1039 \r
1040         ///////////////////////////////////////////////////////////////////////////////\r
1041         // knn match Dispatcher\r
1042 \r
1043         template <typename Dist, typename T, typename Mask>\r
1044         void matchDispatcher(const PtrStepSz<T>& query, const PtrStepSz<T>& train, int k, const Mask& mask,\r
1045             const PtrStepSzb& trainIdx, const PtrStepSzb& distance, const PtrStepSzf& allDist,\r
1046             int cc, cudaStream_t stream)\r
1047         {\r
1048             if (k == 2)\r
1049             {\r
1050                 match2Dispatcher<Dist>(query, train, mask, trainIdx, distance, cc, stream);\r
1051             }\r
1052             else\r
1053             {\r
1054                 calcDistanceDispatcher<Dist>(query, train, mask, allDist, cc, stream);\r
1055                 findKnnMatchDispatcher(k, trainIdx, distance, allDist, cc, stream);\r
1056             }\r
1057         }\r
1058 \r
1059         ///////////////////////////////////////////////////////////////////////////////\r
1060         // knn match caller\r
1061 \r
1062         template <typename T> void matchL1_gpu(const PtrStepSzb& query, const PtrStepSzb& train, int k, const PtrStepSzb& mask,\r
1063             const PtrStepSzb& trainIdx, const PtrStepSzb& distance, const PtrStepSzf& allDist,\r
1064             int cc, cudaStream_t stream)\r
1065         {\r
1066             if (mask.data)\r
1067                 matchDispatcher< L1Dist<T> >(static_cast< PtrStepSz<T> >(query), static_cast< PtrStepSz<T> >(train), k, SingleMask(mask), trainIdx, distance, allDist, cc, stream);\r
1068             else\r
1069                 matchDispatcher< L1Dist<T> >(static_cast< PtrStepSz<T> >(query), static_cast< PtrStepSz<T> >(train), k, WithOutMask(), trainIdx, distance, allDist, cc, stream);\r
1070         }\r
1071 \r
1072         template void matchL1_gpu<uchar >(const PtrStepSzb& queryDescs, const PtrStepSzb& trainDescs, int k, const PtrStepSzb& mask, const PtrStepSzb& trainIdx, const PtrStepSzb& distance, const PtrStepSzf& allDist, int cc, cudaStream_t stream);\r
1073         //template void matchL1_gpu<schar >(const PtrStepSzb& queryDescs, const PtrStepSzb& trainDescs, int k, const PtrStepSzb& mask, const PtrStepSzb& trainIdx, const PtrStepSzb& distance, const PtrStepSzf& allDist, int cc, cudaStream_t stream);\r
1074         template void matchL1_gpu<ushort>(const PtrStepSzb& queryDescs, const PtrStepSzb& trainDescs, int k, const PtrStepSzb& mask, const PtrStepSzb& trainIdx, const PtrStepSzb& distance, const PtrStepSzf& allDist, int cc, cudaStream_t stream);\r
1075         template void matchL1_gpu<short >(const PtrStepSzb& queryDescs, const PtrStepSzb& trainDescs, int k, const PtrStepSzb& mask, const PtrStepSzb& trainIdx, const PtrStepSzb& distance, const PtrStepSzf& allDist, int cc, cudaStream_t stream);\r
1076         template void matchL1_gpu<int   >(const PtrStepSzb& queryDescs, const PtrStepSzb& trainDescs, int k, const PtrStepSzb& mask, const PtrStepSzb& trainIdx, const PtrStepSzb& distance, const PtrStepSzf& allDist, int cc, cudaStream_t stream);\r
1077         template void matchL1_gpu<float >(const PtrStepSzb& queryDescs, const PtrStepSzb& trainDescs, int k, const PtrStepSzb& mask, const PtrStepSzb& trainIdx, const PtrStepSzb& distance, const PtrStepSzf& allDist, int cc, cudaStream_t stream);\r
1078 \r
1079         template <typename T> void matchL2_gpu(const PtrStepSzb& query, const PtrStepSzb& train, int k, const PtrStepSzb& mask,\r
1080             const PtrStepSzb& trainIdx, const PtrStepSzb& distance, const PtrStepSzf& allDist,\r
1081             int cc, cudaStream_t stream)\r
1082         {\r
1083             if (mask.data)\r
1084                 matchDispatcher<L2Dist>(static_cast< PtrStepSz<T> >(query), static_cast< PtrStepSz<T> >(train), k, SingleMask(mask), trainIdx, distance, allDist, cc, stream);\r
1085             else\r
1086                 matchDispatcher<L2Dist>(static_cast< PtrStepSz<T> >(query), static_cast< PtrStepSz<T> >(train), k, WithOutMask(), trainIdx, distance, allDist, cc, stream);\r
1087         }\r
1088 \r
1089         //template void matchL2_gpu<uchar >(const PtrStepSzb& queryDescs, const PtrStepSzb& trainDescs, int k, const PtrStepSzb& mask, const PtrStepSzb& trainIdx, const PtrStepSzb& distance, const PtrStepSzf& allDist, int cc, cudaStream_t stream);\r
1090         //template void matchL2_gpu<schar >(const PtrStepSzb& queryDescs, const PtrStepSzb& trainDescs, int k, const PtrStepSzb& mask, const PtrStepSzb& trainIdx, const PtrStepSzb& distance, const PtrStepSzf& allDist, int cc, cudaStream_t stream);\r
1091         //template void matchL2_gpu<ushort>(const PtrStepSzb& queryDescs, const PtrStepSzb& trainDescs, int k, const PtrStepSzb& mask, const PtrStepSzb& trainIdx, const PtrStepSzb& distance, const PtrStepSzf& allDist, int cc, cudaStream_t stream);\r
1092         //template void matchL2_gpu<short >(const PtrStepSzb& queryDescs, const PtrStepSzb& trainDescs, int k, const PtrStepSzb& mask, const PtrStepSzb& trainIdx, const PtrStepSzb& distance, const PtrStepSzf& allDist, int cc, cudaStream_t stream);\r
1093         //template void matchL2_gpu<int   >(const PtrStepSzb& queryDescs, const PtrStepSzb& trainDescs, int k, const PtrStepSzb& mask, const PtrStepSzb& trainIdx, const PtrStepSzb& distance, const PtrStepSzf& allDist, int cc, cudaStream_t stream);\r
1094         template void matchL2_gpu<float >(const PtrStepSzb& queryDescs, const PtrStepSzb& trainDescs, int k, const PtrStepSzb& mask, const PtrStepSzb& trainIdx, const PtrStepSzb& distance, const PtrStepSzf& allDist, int cc, cudaStream_t stream);\r
1095 \r
1096         template <typename T> void matchHamming_gpu(const PtrStepSzb& query, const PtrStepSzb& train, int k, const PtrStepSzb& mask,\r
1097             const PtrStepSzb& trainIdx, const PtrStepSzb& distance, const PtrStepSzf& allDist,\r
1098             int cc, cudaStream_t stream)\r
1099         {\r
1100             if (mask.data)\r
1101                 matchDispatcher<HammingDist>(static_cast< PtrStepSz<T> >(query), static_cast< PtrStepSz<T> >(train), k, SingleMask(mask), trainIdx, distance, allDist, cc, stream);\r
1102             else\r
1103                 matchDispatcher<HammingDist>(static_cast< PtrStepSz<T> >(query), static_cast< PtrStepSz<T> >(train), k, WithOutMask(), trainIdx, distance, allDist, cc, stream);\r
1104         }\r
1105 \r
1106         template void matchHamming_gpu<uchar >(const PtrStepSzb& queryDescs, const PtrStepSzb& trainDescs, int k, const PtrStepSzb& mask, const PtrStepSzb& trainIdx, const PtrStepSzb& distance, const PtrStepSzf& allDist, int cc, cudaStream_t stream);\r
1107         //template void matchHamming_gpu<schar >(const PtrStepSzb& queryDescs, const PtrStepSzb& trainDescs, int k, const PtrStepSzb& mask, const PtrStepSzb& trainIdx, const PtrStepSzb& distance, const PtrStepSzf& allDist, int cc, cudaStream_t stream);\r
1108         template void matchHamming_gpu<ushort>(const PtrStepSzb& queryDescs, const PtrStepSzb& trainDescs, int k, const PtrStepSzb& mask, const PtrStepSzb& trainIdx, const PtrStepSzb& distance, const PtrStepSzf& allDist, int cc, cudaStream_t stream);\r
1109         //template void matchHamming_gpu<short >(const PtrStepSzb& queryDescs, const PtrStepSzb& trainDescs, int k, const PtrStepSzb& mask, const PtrStepSzb& trainIdx, const PtrStepSzb& distance, const PtrStepSzf& allDist, int cc, cudaStream_t stream);\r
1110         template void matchHamming_gpu<int   >(const PtrStepSzb& queryDescs, const PtrStepSzb& trainDescs, int k, const PtrStepSzb& mask, const PtrStepSzb& trainIdx, const PtrStepSzb& distance, const PtrStepSzf& allDist, int cc, cudaStream_t stream);\r
1111 \r
1112         template <typename T> void match2L1_gpu(const PtrStepSzb& query, const PtrStepSzb& trains, const PtrStepSz<PtrStepb>& masks,\r
1113             const PtrStepSzb& trainIdx, const PtrStepSzb& imgIdx, const PtrStepSzb& distance,\r
1114             int cc, cudaStream_t stream)\r
1115         {\r
1116             if (masks.data)\r
1117                 match2Dispatcher< L1Dist<T> >(static_cast< PtrStepSz<T> >(query), (const PtrStepSz<T>*)trains.ptr(), trains.cols, MaskCollection(masks.data), trainIdx, imgIdx, distance, cc, stream);\r
1118             else\r
1119                 match2Dispatcher< L1Dist<T> >(static_cast< PtrStepSz<T> >(query), (const PtrStepSz<T>*)trains.ptr(), trains.cols, WithOutMask(), trainIdx, imgIdx, distance, cc, stream);\r
1120         }\r
1121 \r
1122         template void match2L1_gpu<uchar >(const PtrStepSzb& query, const PtrStepSzb& trains, const PtrStepSz<PtrStepb>& masks, const PtrStepSzb& trainIdx, const PtrStepSzb& imgIdx, const PtrStepSzb& distance, int cc, cudaStream_t stream);\r
1123         //template void match2L1_gpu<schar >(const PtrStepSzb& query, const PtrStepSzb& trains, const PtrStepSz<PtrStepb>& masks, const PtrStepSzb& trainIdx, const PtrStepSzb& imgIdx, const PtrStepSzb& distance, int cc, cudaStream_t stream);\r
1124         template void match2L1_gpu<ushort>(const PtrStepSzb& query, const PtrStepSzb& trains, const PtrStepSz<PtrStepb>& masks, const PtrStepSzb& trainIdx, const PtrStepSzb& imgIdx, const PtrStepSzb& distance, int cc, cudaStream_t stream);\r
1125         template void match2L1_gpu<short >(const PtrStepSzb& query, const PtrStepSzb& trains, const PtrStepSz<PtrStepb>& masks, const PtrStepSzb& trainIdx, const PtrStepSzb& imgIdx, const PtrStepSzb& distance, int cc, cudaStream_t stream);\r
1126         template void match2L1_gpu<int   >(const PtrStepSzb& query, const PtrStepSzb& trains, const PtrStepSz<PtrStepb>& masks, const PtrStepSzb& trainIdx, const PtrStepSzb& imgIdx, const PtrStepSzb& distance, int cc, cudaStream_t stream);\r
1127         template void match2L1_gpu<float >(const PtrStepSzb& query, const PtrStepSzb& trains, const PtrStepSz<PtrStepb>& masks, const PtrStepSzb& trainIdx, const PtrStepSzb& imgIdx, const PtrStepSzb& distance, int cc, cudaStream_t stream);\r
1128 \r
1129         template <typename T> void match2L2_gpu(const PtrStepSzb& query, const PtrStepSzb& trains, const PtrStepSz<PtrStepb>& masks,\r
1130             const PtrStepSzb& trainIdx, const PtrStepSzb& imgIdx, const PtrStepSzb& distance,\r
1131             int cc, cudaStream_t stream)\r
1132         {\r
1133             if (masks.data)\r
1134                 match2Dispatcher<L2Dist>(static_cast< PtrStepSz<T> >(query), (const PtrStepSz<T>*)trains.ptr(), trains.cols, MaskCollection(masks.data), trainIdx, imgIdx, distance, cc, stream);\r
1135             else\r
1136                 match2Dispatcher<L2Dist>(static_cast< PtrStepSz<T> >(query), (const PtrStepSz<T>*)trains.ptr(), trains.cols, WithOutMask(), trainIdx, imgIdx, distance, cc, stream);\r
1137         }\r
1138 \r
1139         //template void match2L2_gpu<uchar >(const PtrStepSzb& query, const PtrStepSzb& trains, const PtrStepSz<PtrStepb>& masks, const PtrStepSzb& trainIdx, const PtrStepSzb& imgIdx, const PtrStepSzb& distance, int cc, cudaStream_t stream);\r
1140         //template void match2L2_gpu<schar >(const PtrStepSzb& query, const PtrStepSzb& trains, const PtrStepSz<PtrStepb>& masks, const PtrStepSzb& trainIdx, const PtrStepSzb& imgIdx, const PtrStepSzb& distance, int cc, cudaStream_t stream);\r
1141         //template void match2L2_gpu<ushort>(const PtrStepSzb& query, const PtrStepSzb& trains, const PtrStepSz<PtrStepb>& masks, const PtrStepSzb& trainIdx, const PtrStepSzb& imgIdx, const PtrStepSzb& distance, int cc, cudaStream_t stream);\r
1142         //template void match2L2_gpu<short >(const PtrStepSzb& query, const PtrStepSzb& trains, const PtrStepSz<PtrStepb>& masks, const PtrStepSzb& trainIdx, const PtrStepSzb& imgIdx, const PtrStepSzb& distance, int cc, cudaStream_t stream);\r
1143         //template void match2L2_gpu<int   >(const PtrStepSzb& query, const PtrStepSzb& trains, const PtrStepSz<PtrStepb>& masks, const PtrStepSzb& trainIdx, const PtrStepSzi& imgIdx, const PtrStepSzb& distance, int cc, cudaStream_t stream);\r
1144         template void match2L2_gpu<float >(const PtrStepSzb& query, const PtrStepSzb& trains, const PtrStepSz<PtrStepb>& masks, const PtrStepSzb& trainIdx, const PtrStepSzb& imgIdx, const PtrStepSzb& distance, int cc, cudaStream_t stream);\r
1145 \r
1146         template <typename T> void match2Hamming_gpu(const PtrStepSzb& query, const PtrStepSzb& trains, const PtrStepSz<PtrStepb>& masks,\r
1147             const PtrStepSzb& trainIdx, const PtrStepSzb& imgIdx, const PtrStepSzb& distance,\r
1148             int cc, cudaStream_t stream)\r
1149         {\r
1150             if (masks.data)\r
1151                 match2Dispatcher<HammingDist>(static_cast< PtrStepSz<T> >(query), (const PtrStepSz<T>*)trains.ptr(), trains.cols, MaskCollection(masks.data), trainIdx, imgIdx, distance, cc, stream);\r
1152             else\r
1153                 match2Dispatcher<HammingDist>(static_cast< PtrStepSz<T> >(query), (const PtrStepSz<T>*)trains.ptr(), trains.cols, WithOutMask(), trainIdx, imgIdx, distance, cc, stream);\r
1154         }\r
1155 \r
1156         template void match2Hamming_gpu<uchar >(const PtrStepSzb& query, const PtrStepSzb& trains, const PtrStepSz<PtrStepb>& masks, const PtrStepSzb& trainIdx, const PtrStepSzb& imgIdx, const PtrStepSzb& distance, int cc, cudaStream_t stream);\r
1157         //template void match2Hamming_gpu<schar >(const PtrStepSzb& query, const PtrStepSzb& trains, const PtrStepSz<PtrStepb>& masks, const PtrStepSzb& trainIdx, const PtrStepSzb& imgIdx, const PtrStepSzb& distance, int cc, cudaStream_t stream);\r
1158         template void match2Hamming_gpu<ushort>(const PtrStepSzb& query, const PtrStepSzb& trains, const PtrStepSz<PtrStepb>& masks, const PtrStepSzb& trainIdx, const PtrStepSzb& imgIdx, const PtrStepSzb& distance, int cc, cudaStream_t stream);\r
1159         //template void match2Hamming_gpu<short >(const PtrStepSzb& query, const PtrStepSzb& trains, const PtrStepSz<PtrStepb>& masks, const PtrStepSzb& trainIdx, const PtrStepSzb& imgIdx, const PtrStepSzb& distance, int cc, cudaStream_t stream);\r
1160         template void match2Hamming_gpu<int   >(const PtrStepSzb& query, const PtrStepSzb& trains, const PtrStepSz<PtrStepb>& masks, const PtrStepSzb& trainIdx, const PtrStepSzb& imgIdx, const PtrStepSzb& distance, int cc, cudaStream_t stream);\r
1161     } // namespace bf_knnmatch\r
1162 }}} // namespace cv { namespace gpu { namespace device {\r