norm.cpp(normL2Sqr_): improve performance of pipeline

author Jojo R <rjiejie@me.com>

Tue, 17 Nov 2020 07:29:03 +0000 (15:29 +0800)

committer Jojo R <rjiejie@me.com>

Thu, 19 Nov 2020 01:49:49 +0000 (09:49 +0800)
author Jojo R <rjiejie@me.com>
Tue, 17 Nov 2020 07:29:03 +0000 (15:29 +0800)
committer Jojo R <rjiejie@me.com>
Thu, 19 Nov 2020 01:49:49 +0000 (09:49 +0800)
diff --git a/modules/core/src/norm.cpp b/modules/core/src/norm.cpp

index 9aaed8e..b95cd99 100644 (file)
--- a/modules/core/src/norm.cpp
+++ b/modules/core/src/norm.cpp
@@ -152,10 +152,10 @@ float normL2Sqr_(const float* a, const float* b, int n)
      {
          v_float32 t0 = vx_load(a + j) - vx_load(b + j);
          v_float32 t1 = vx_load(a + j + v_float32::nlanes) - vx_load(b + j + v_float32::nlanes);
-        v_float32 t2 = vx_load(a + j + 2 * v_float32::nlanes) - vx_load(b + j + 2 * v_float32::nlanes);
-        v_float32 t3 = vx_load(a + j + 3 * v_float32::nlanes) - vx_load(b + j + 3 * v_float32::nlanes);
          v_d0 = v_muladd(t0, t0, v_d0);
+        v_float32 t2 = vx_load(a + j + 2 * v_float32::nlanes) - vx_load(b + j + 2 * v_float32::nlanes);
          v_d1 = v_muladd(t1, t1, v_d1);
+        v_float32 t3 = vx_load(a + j + 3 * v_float32::nlanes) - vx_load(b + j + 3 * v_float32::nlanes);
          v_d2 = v_muladd(t2, t2, v_d2);
          v_d3 = v_muladd(t3, t3, v_d3);
      }
author	Jojo R <rjiejie@me.com>
	Tue, 17 Nov 2020 07:29:03 +0000 (15:29 +0800)
committer	Jojo R <rjiejie@me.com>
	Thu, 19 Nov 2020 01:49:49 +0000 (09:49 +0800)