478cf252b3d0a9a48c3c11bf71e18eedec98a49f
[platform/upstream/openblas.git] / kernel / zarch / zdot.c
1 /***************************************************************************
2 Copyright (c) 2013-2017, The OpenBLAS Project
3 All rights reserved.
4 Redistribution and use in source and binary forms, with or without
5 modification, are permitted provided that the following conditions are
6 met:
7 1. Redistributions of source code must retain the above copyright
8 notice, this list of conditions and the following disclaimer.
9 2. Redistributions in binary form must reproduce the above copyright
10 notice, this list of conditions and the following disclaimer in
11 the documentation and/or other materials provided with the
12 distribution.
13 3. Neither the name of the OpenBLAS project nor the names of
14 its contributors may be used to endorse or promote products
15 derived from this software without specific prior written permission.
16 THIS SOFTWARE IS PROVIDED BY THE COPYRIGHT HOLDERS AND CONTRIBUTORS "AS IS"
17 AND ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
18 IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
19 ARE DISCLAIMED. IN NO EVENT SHALL THE OPENBLAS PROJECT OR CONTRIBUTORS BE
20 LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
21 DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR
22 SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION) HOWEVER
23 CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
24 OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE
25 USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
26  *****************************************************************************/
27
28
29 #include "common.h"
30
31 static void __attribute__ ((noinline)) zdot_kernel_8(BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *d) {
32
33     __asm__ volatile(
34             "pfd 1, 0(%1) \n\t"
35             "pfd 1, 0(%2) \n\t"
36             "vzero %%v24  \n\t"
37             "vzero %%v25  \n\t"
38             "vzero %%v26  \n\t"
39             "vzero %%v27  \n\t"
40             "srlg %%r0,%0,3      \n\t"
41             "xgr %%r1,%%r1       \n\t"
42             ".align 16 \n\t"
43             "1: \n\t"
44             "pfd 1, 256(%%r1,%1)     \n\t"
45             "pfd 1, 256(%%r1,%2)     \n\t"
46             "vl  %%v16,  0(%%r1,%1)  \n\t"
47             "vl  %%v17, 16(%%r1,%1)  \n\t"
48             "vl  %%v18, 32(%%r1,%1)  \n\t"
49             "vl  %%v19, 48(%%r1,%1)  \n\t"
50             "vl  %%v28,  0(%%r1,%2)  \n\t"
51             "vl  %%v29, 16(%%r1,%2)  \n\t"
52             "vl  %%v30, 32(%%r1,%2)  \n\t"
53             "vl  %%v31, 48(%%r1,%2)  \n\t"
54             "vpdi %%v20,%%v16,%%v16,4 \n\t"
55             "vpdi %%v21,%%v17,%%v17,4 \n\t"
56             "vpdi %%v22,%%v18,%%v18,4 \n\t"
57             "vpdi %%v23,%%v19,%%v19,4 \n\t"
58
59
60             "vfmadb    %%v24,%%v16,%%v28,%%v24  \n\t"
61             "vfmadb    %%v25,%%v20,%%v28,%%v25  \n\t"
62             "vfmadb    %%v26,%%v17,%%v29,%%v26  \n\t"
63             "vfmadb    %%v27,%%v21,%%v29,%%v27  \n\t"
64             "vfmadb    %%v24,%%v18,%%v30,%%v24  \n\t"
65             "vfmadb    %%v25,%%v22,%%v30,%%v25  \n\t"
66             "vfmadb    %%v26,%%v19,%%v31,%%v26  \n\t"
67             "vfmadb    %%v27,%%v23,%%v31,%%v27  \n\t"
68
69
70
71             "vl  %%v16, 64(%%r1,%1) \n\t"
72             "vl  %%v17, 80(%%r1,%1) \n\t"
73             "vl  %%v18, 96(%%r1,%1) \n\t"
74             "vl  %%v19,112(%%r1,%1) \n\t"
75             "vl  %%v28, 64(%%r1,%2) \n\t"
76             "vl  %%v29, 80(%%r1,%2) \n\t"
77             "vl  %%v30, 96(%%r1,%2) \n\t"
78             "vl  %%v31,112(%%r1,%2) \n\t"
79             "vpdi %%v20,%%v16,%%v16,4 \n\t"
80             "vpdi %%v21,%%v17,%%v17,4 \n\t"
81             "vpdi %%v22,%%v18,%%v18,4 \n\t"
82             "vpdi %%v23,%%v19,%%v19,4 \n\t"
83             "vfmadb    %%v24,%%v16,%%v28,%%v24  \n\t"
84             "vfmadb    %%v25,%%v20,%%v28,%%v25  \n\t"
85             "vfmadb    %%v26,%%v17,%%v29,%%v26  \n\t"
86             "vfmadb    %%v27,%%v21,%%v29,%%v27  \n\t"
87             "vfmadb    %%v24,%%v18,%%v30,%%v24  \n\t"
88             "vfmadb    %%v25,%%v22,%%v30,%%v25  \n\t"
89             "vfmadb    %%v26,%%v19,%%v31,%%v26  \n\t"
90             "vfmadb    %%v27,%%v23,%%v31,%%v27  \n\t"
91
92
93             "la %%r1,128(%%r1) \n\t"
94             "brctg %%r0,1b     \n\t"
95             "vfadb %%v24,%%v26,%%v24 \n\t"
96             "vfadb %%v25,%%v25,%%v27 \n\t"
97             "vsteg %%v24,0(%3),0     \n\t"
98             "vsteg %%v24,8(%3),1     \n\t"
99             "vsteg %%v25,16(%3),1    \n\t"
100             "vsteg %%v25,24(%3),0    \n\t"
101             :
102             : "r"(n), "a"(x), "a"(y), "a"(d)
103             : "cc", "memory","r0","r1","v16",
104             "v17","v18","v19","v20","v21","v22","v23","v24","v25","v26","v27","v28","v29","v30","v31" 
105             );
106
107 }
108
109 static __attribute__ ((noinline)) void zdot_kernel_8n(BLASLONG n, FLOAT *x, FLOAT *y, FLOAT *d) {
110     BLASLONG register i = 0;
111     FLOAT dot[4] = {0.0, 0.0, 0.0, 0.0};
112     BLASLONG j = 0;
113
114     while (i < n) {
115
116         dot[0] += x[j] * y[j];
117         dot[1] += x[j + 1] * y[j + 1];
118         dot[2] += x[j] * y[j + 1];
119         dot[3] += x[j + 1] * y[j];
120
121         dot[0] += x[j + 2] * y[j + 2];
122         dot[1] += x[j + 3] * y[j + 3];
123         dot[2] += x[j + 2] * y[j + 3];
124         dot[3] += x[j + 3] * y[j + 2];
125
126         dot[0] += x[j + 4] * y[j + 4];
127         dot[1] += x[j + 5] * y[j + 5];
128         dot[2] += x[j + 4] * y[j + 5];
129         dot[3] += x[j + 5] * y[j + 4];
130
131         dot[0] += x[j + 6] * y[j + 6];
132         dot[1] += x[j + 7] * y[j + 7];
133         dot[2] += x[j + 6] * y[j + 7];
134         dot[3] += x[j + 7] * y[j + 6];
135
136         j += 8;
137         i += 4;
138
139     }
140     d[0] = dot[0];
141     d[1] = dot[1];
142     d[2] = dot[2];
143     d[3] = dot[3];
144
145 }
146
147 OPENBLAS_COMPLEX_FLOAT CNAME(BLASLONG n, FLOAT *x, BLASLONG inc_x, FLOAT *y, BLASLONG inc_y) {
148     BLASLONG i;
149     BLASLONG ix, iy;
150     OPENBLAS_COMPLEX_FLOAT result;
151     FLOAT dot[4] __attribute__ ((aligned(16))) = {0.0, 0.0, 0.0, 0.0};
152
153     if (n <= 0) {
154         CREAL(result) = 0.0;
155         CIMAG(result) = 0.0;
156         return (result);
157
158     }
159
160     if ((inc_x == 1) && (inc_y == 1)) {
161
162         BLASLONG n1 = n & -16;
163
164         if (n1)
165             zdot_kernel_8(n1, x, y, dot);
166
167         i = n1;
168         BLASLONG j = i * 2;
169
170         while (i < n) {
171
172             dot[0] += x[j] * y[j];
173             dot[1] += x[j + 1] * y[j + 1];
174             dot[2] += x[j] * y[j + 1];
175             dot[3] += x[j + 1] * y[j];
176
177             j += 2;
178             i++;
179
180         }
181
182
183     } else {
184         i = 0;
185         ix = 0;
186         iy = 0;
187         inc_x <<= 1;
188         inc_y <<= 1;
189         while (i < n) {
190
191             dot[0] += x[ix] * y[iy];
192             dot[1] += x[ix + 1] * y[iy + 1];
193             dot[2] += x[ix] * y[iy + 1];
194             dot[3] += x[ix + 1] * y[iy];
195
196             ix += inc_x;
197             iy += inc_y;
198             i++;
199
200         }
201     }
202
203 #if !defined(CONJ)
204     CREAL(result) = dot[0] - dot[1];
205     CIMAG(result) = dot[2] + dot[3];
206 #else
207     CREAL(result) = dot[0] + dot[1];
208     CIMAG(result) = dot[2] - dot[3];
209
210 #endif
211
212     return (result);
213
214 }
215
216