Tizen 2.0 Release
[profile/ivi/osmesa.git] / src / gallium / auxiliary / draw / draw_vs_aos_io.c
1 /**************************************************************************
2  * 
3  * Copyright 2007 Tungsten Graphics, Inc., Cedar Park, Texas.
4  * All Rights Reserved.
5  * 
6  * Permission is hereby granted, free of charge, to any person obtaining a
7  * copy of this software and associated documentation files (the
8  * "Software"), to deal in the Software without restriction, including
9  * without limitation the rights to use, copy, modify, merge, publish,
10  * distribute, sub license, and/or sell copies of the Software, and to
11  * permit persons to whom the Software is furnished to do so, subject to
12  * the following conditions:
13  * 
14  * The above copyright notice and this permission notice (including the
15  * next paragraph) shall be included in all copies or substantial portions
16  * of the Software.
17  * 
18  * THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS
19  * OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF
20  * MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NON-INFRINGEMENT.
21  * IN NO EVENT SHALL TUNGSTEN GRAPHICS AND/OR ITS SUPPLIERS BE LIABLE FOR
22  * ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT,
23  * TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE
24  * SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE.
25  * 
26  **************************************************************************/
27
28
29 #include "util/u_memory.h"
30 #include "pipe/p_shader_tokens.h"
31 #include "tgsi/tgsi_parse.h"
32 #include "tgsi/tgsi_util.h"
33 #include "tgsi/tgsi_exec.h"
34 #include "draw_vs.h"
35 #include "draw_vs_aos.h"
36 #include "draw_vertex.h"
37
38 #include "rtasm/rtasm_x86sse.h"
39
40 #ifdef PIPE_ARCH_X86
41
42 /* Note - don't yet have to worry about interacting with the code in
43  * draw_vs_aos.c as there is no intermingling of generated code...
44  * That may have to change, we'll see.
45  */
46 static void emit_load_R32G32B32A32( struct aos_compilation *cp,                            
47                                     struct x86_reg data,
48                                     struct x86_reg src_ptr )
49 {
50    sse_movups(cp->func, data, src_ptr);
51 }
52
53 static void emit_load_R32G32B32( struct aos_compilation *cp,                       
54                                  struct x86_reg data,
55                                  struct x86_reg src_ptr )
56 {
57 #if 1
58    sse_movss(cp->func, data, x86_make_disp(src_ptr, 8));
59    /* data = z ? ? ? */
60    sse_shufps(cp->func, data, aos_get_internal_xmm( cp, IMM_IDENTITY ), SHUF(X,Y,Z,W) );
61    /* data = z ? 0 1 */
62    sse_shufps(cp->func, data, data, SHUF(Y,Z,X,W) );
63    /* data = ? 0 z 1 */
64    sse_movlps(cp->func, data, src_ptr);
65    /* data = x y z 1 */
66 #else
67    sse_movups(cp->func, data, src_ptr);
68    /* data = x y z ? */
69    sse2_pshufd(cp->func, data, data, SHUF(W,X,Y,Z) );
70    /* data = ? x y z */
71    sse_movss(cp->func, data, aos_get_internal_xmm( cp, IMM_ONES ) );
72    /* data = 1 x y z */
73    sse2_pshufd(cp->func, data, data, SHUF(Y,Z,W,X) );
74    /* data = x y z 1 */
75 #endif
76 }
77
78 static void emit_load_R32G32( struct aos_compilation *cp, 
79                            struct x86_reg data,
80                            struct x86_reg src_ptr )
81 {
82    sse_movups(cp->func, data, aos_get_internal_xmm( cp, IMM_IDENTITY ) );
83    sse_movlps(cp->func, data, src_ptr);
84 }
85
86
87 static void emit_load_R32( struct aos_compilation *cp, 
88                            struct x86_reg data,
89                            struct x86_reg src_ptr )
90 {
91    sse_movss(cp->func, data, src_ptr);
92    sse_orps(cp->func, data, aos_get_internal_xmm( cp, IMM_IDENTITY ) );
93 }
94
95
96 static void emit_load_R8G8B8A8_UNORM( struct aos_compilation *cp,
97                                        struct x86_reg data,
98                                        struct x86_reg src_ptr )
99 {
100    sse_movss(cp->func, data, src_ptr);
101    sse2_punpcklbw(cp->func, data, aos_get_internal_xmm( cp, IMM_IDENTITY ));
102    sse2_punpcklbw(cp->func, data, aos_get_internal_xmm( cp, IMM_IDENTITY ));
103    sse2_cvtdq2ps(cp->func, data, data);
104    sse_mulps(cp->func, data, aos_get_internal(cp, IMM_INV_255));
105 }
106
107
108
109 /* Extended swizzles?  Maybe later.
110  */  
111 static void emit_swizzle( struct aos_compilation *cp,
112                           struct x86_reg dest,
113                           struct x86_reg src,
114                           ubyte shuffle )
115 {
116    sse_shufps(cp->func, dest, src, shuffle);
117 }
118
119
120
121 static boolean get_buffer_ptr( struct aos_compilation *cp,
122                                boolean linear,
123                                unsigned buf_idx,
124                                struct x86_reg elt,
125                                struct x86_reg ptr)
126 {
127    struct x86_reg buf = x86_make_disp(aos_get_x86( cp, 0, X86_BUFFERS ), 
128                                       buf_idx * sizeof(struct aos_buffer));
129
130    struct x86_reg buf_stride = x86_make_disp(buf, 
131                                              Offset(struct aos_buffer, stride));
132    if (linear) {
133       struct x86_reg buf_ptr = x86_make_disp(buf, 
134                                              Offset(struct aos_buffer, ptr));
135
136
137       /* Calculate pointer to current attrib:
138        */
139       x86_mov(cp->func, ptr, buf_ptr);
140       x86_mov(cp->func, elt, buf_stride);
141       x86_add(cp->func, elt, ptr);
142       if (buf_idx == 0) sse_prefetchnta(cp->func, x86_make_disp(elt, 192));
143       x86_mov(cp->func, buf_ptr, elt);
144    }
145    else {
146       struct x86_reg buf_base_ptr = x86_make_disp(buf, 
147                                                   Offset(struct aos_buffer, base_ptr));
148
149
150       /* Calculate pointer to current attrib:
151        */
152       x86_mov(cp->func, ptr, buf_stride);
153       x86_imul(cp->func, ptr, elt);
154       x86_add(cp->func, ptr, buf_base_ptr);
155    }
156
157    cp->insn_counter++;
158
159    return TRUE;
160 }
161
162
163 static boolean load_input( struct aos_compilation *cp,
164                            unsigned idx,
165                            struct x86_reg bufptr )
166 {
167    unsigned format = cp->vaos->base.key.element[idx].in.format;
168    unsigned offset = cp->vaos->base.key.element[idx].in.offset;
169    struct x86_reg dataXMM = aos_get_xmm_reg(cp);
170
171    /* Figure out source pointer address:
172     */
173    struct x86_reg src = x86_make_disp(bufptr, offset);
174
175    aos_adopt_xmm_reg( cp,
176                       dataXMM,
177                       TGSI_FILE_INPUT,
178                       idx,
179                       TRUE );
180
181    switch (format) {
182    case PIPE_FORMAT_R32_FLOAT:
183       emit_load_R32(cp, dataXMM, src);
184       break;
185    case PIPE_FORMAT_R32G32_FLOAT:
186       emit_load_R32G32(cp, dataXMM, src);
187       break;
188    case PIPE_FORMAT_R32G32B32_FLOAT:
189       emit_load_R32G32B32(cp, dataXMM, src);
190       break;
191    case PIPE_FORMAT_R32G32B32A32_FLOAT:
192       emit_load_R32G32B32A32(cp, dataXMM, src);
193       break;
194    case PIPE_FORMAT_A8R8G8B8_UNORM:
195       emit_load_R8G8B8A8_UNORM(cp, dataXMM, src);
196       emit_swizzle(cp, dataXMM, dataXMM, SHUF(Z,Y,X,W));
197       break;
198    case PIPE_FORMAT_R8G8B8A8_UNORM:
199       emit_load_R8G8B8A8_UNORM(cp, dataXMM, src);
200       break;
201    default:
202       AOS_ERROR(cp, "unhandled input format");
203       return FALSE;
204    }
205
206    return TRUE;
207 }
208
209 static boolean load_inputs( struct aos_compilation *cp,
210                             unsigned buffer,
211                             struct x86_reg ptr )
212 {
213    unsigned i;
214
215    for (i = 0; i < cp->vaos->base.key.nr_inputs; i++) {
216       if (cp->vaos->base.key.element[i].in.buffer == buffer) {
217
218          if (!load_input( cp, i, ptr ))
219             return FALSE;
220
221          cp->insn_counter++;
222       }
223    }
224    
225    return TRUE;
226 }
227
228 boolean aos_init_inputs( struct aos_compilation *cp, boolean linear )
229 {
230    unsigned i;
231    for (i = 0; i < cp->vaos->nr_vb; i++) {
232       struct x86_reg buf = x86_make_disp(aos_get_x86( cp, 0, X86_BUFFERS ), 
233                                          i * sizeof(struct aos_buffer));
234
235       struct x86_reg buf_base_ptr = x86_make_disp(buf, 
236                                                   Offset(struct aos_buffer, base_ptr));
237
238       if (cp->vaos->base.key.const_vbuffers & (1<<i)) {
239          struct x86_reg ptr = cp->tmp_EAX;
240
241          x86_mov(cp->func, ptr, buf_base_ptr);
242
243          /* Load all inputs for this constant vertex buffer
244           */
245          load_inputs( cp, i, x86_deref(ptr) );
246          
247          /* Then just force them out to aos_machine.input[]
248           */
249          aos_spill_all( cp );
250
251       }
252       else if (linear) {
253
254          struct x86_reg elt = cp->idx_EBX;
255          struct x86_reg ptr = cp->tmp_EAX;
256
257          struct x86_reg buf_stride = x86_make_disp(buf, 
258                                                    Offset(struct aos_buffer, stride));
259
260          struct x86_reg buf_ptr = x86_make_disp(buf, 
261                                                 Offset(struct aos_buffer, ptr));
262
263
264          /* Calculate pointer to current attrib:
265           */
266          x86_mov(cp->func, ptr, buf_stride);
267          x86_imul(cp->func, ptr, elt);
268          x86_add(cp->func, ptr, buf_base_ptr);
269
270
271          /* In the linear case, keep the buffer pointer instead of the
272           * index number.
273           */
274          if (cp->vaos->nr_vb == 1) 
275             x86_mov( cp->func, elt, ptr );
276          else
277             x86_mov( cp->func, buf_ptr, ptr );
278
279          cp->insn_counter++;
280       }
281    }
282
283    return TRUE;
284 }
285
286 boolean aos_fetch_inputs( struct aos_compilation *cp, boolean linear )
287 {
288    unsigned j;
289
290    for (j = 0; j < cp->vaos->nr_vb; j++) {
291       if (cp->vaos->base.key.const_vbuffers & (1<<j)) {
292          /* just retreive pre-transformed input */
293       }
294       else if (linear && cp->vaos->nr_vb == 1) {
295          load_inputs( cp, 0, cp->idx_EBX );
296       }
297       else {
298          struct x86_reg elt = linear ? cp->idx_EBX : x86_deref(cp->idx_EBX);
299          struct x86_reg ptr = cp->tmp_EAX;
300
301          if (!get_buffer_ptr( cp, linear, j, elt, ptr ))
302             return FALSE;
303
304          if (!load_inputs( cp, j, ptr ))
305             return FALSE;
306       }
307    }
308
309    return TRUE;
310 }
311
312 boolean aos_incr_inputs( struct aos_compilation *cp, boolean linear )
313 {
314    if (linear && cp->vaos->nr_vb == 1) {
315       struct x86_reg stride = x86_make_disp(aos_get_x86( cp, 0, X86_BUFFERS ), 
316                                             (0 * sizeof(struct aos_buffer) + 
317                                              Offset(struct aos_buffer, stride)));
318
319       x86_add(cp->func, cp->idx_EBX, stride);
320       sse_prefetchnta(cp->func, x86_make_disp(cp->idx_EBX, 192));
321    }
322    else if (linear) {
323       /* Nothing to do */
324    } 
325    else {
326       x86_lea(cp->func, cp->idx_EBX, x86_make_disp(cp->idx_EBX, 4));
327    }
328
329    return TRUE;
330 }
331
332
333
334
335
336
337 static void emit_store_R32G32B32A32( struct aos_compilation *cp,                           
338                                      struct x86_reg dst_ptr,
339                                      struct x86_reg dataXMM )
340 {
341    sse_movups(cp->func, dst_ptr, dataXMM);
342 }
343
344 static void emit_store_R32G32B32( struct aos_compilation *cp, 
345                                   struct x86_reg dst_ptr,
346                                   struct x86_reg dataXMM )
347 {
348    sse_movlps(cp->func, dst_ptr, dataXMM);
349    sse_shufps(cp->func, dataXMM, dataXMM, SHUF(Z,Z,Z,Z) ); /* NOTE! destructive */
350    sse_movss(cp->func, x86_make_disp(dst_ptr,8), dataXMM);
351 }
352
353 static void emit_store_R32G32( struct aos_compilation *cp, 
354                                struct x86_reg dst_ptr,
355                                struct x86_reg dataXMM )
356 {
357    sse_movlps(cp->func, dst_ptr, dataXMM);
358 }
359
360 static void emit_store_R32( struct aos_compilation *cp, 
361                             struct x86_reg dst_ptr,
362                             struct x86_reg dataXMM )
363 {
364    sse_movss(cp->func, dst_ptr, dataXMM);
365 }
366
367
368
369 static void emit_store_R8G8B8A8_UNORM( struct aos_compilation *cp,
370                                        struct x86_reg dst_ptr,
371                                        struct x86_reg dataXMM )
372 {
373    sse_mulps(cp->func, dataXMM, aos_get_internal(cp, IMM_255));
374    sse2_cvtps2dq(cp->func, dataXMM, dataXMM);
375    sse2_packssdw(cp->func, dataXMM, dataXMM);
376    sse2_packuswb(cp->func, dataXMM, dataXMM);
377    sse_movss(cp->func, dst_ptr, dataXMM);
378 }
379
380
381
382
383
384 static boolean emit_output( struct aos_compilation *cp,
385                             struct x86_reg ptr,
386                             struct x86_reg dataXMM, 
387                             enum attrib_emit format )
388 {
389    switch (format) {
390    case EMIT_1F:
391    case EMIT_1F_PSIZE:
392       emit_store_R32(cp, ptr, dataXMM);
393       break;
394    case EMIT_2F:
395       emit_store_R32G32(cp, ptr, dataXMM);
396       break;
397    case EMIT_3F:
398       emit_store_R32G32B32(cp, ptr, dataXMM);
399       break;
400    case EMIT_4F:
401       emit_store_R32G32B32A32(cp, ptr, dataXMM);
402       break;
403    case EMIT_4UB:
404       emit_store_R8G8B8A8_UNORM(cp, ptr, dataXMM);
405       break;
406    case EMIT_4UB_BGRA:
407       emit_swizzle(cp, dataXMM, dataXMM, SHUF(Z,Y,X,W));
408       emit_store_R8G8B8A8_UNORM(cp, ptr, dataXMM);
409       break;
410    default:
411       AOS_ERROR(cp, "unhandled output format");
412       return FALSE;
413    }
414
415    return TRUE;
416 }
417
418
419
420 boolean aos_emit_outputs( struct aos_compilation *cp )
421 {
422    unsigned i;
423    
424    for (i = 0; i < cp->vaos->base.key.nr_outputs; i++) {
425       enum attrib_emit format = cp->vaos->base.key.element[i].out.format;
426       unsigned offset = cp->vaos->base.key.element[i].out.offset;
427       unsigned vs_output = cp->vaos->base.key.element[i].out.vs_output;
428
429       struct x86_reg data;
430
431       if (format == EMIT_1F_PSIZE) {
432          data = aos_get_internal_xmm( cp, IMM_PSIZE );
433       }
434       else {
435          data = aos_get_shader_reg( cp, 
436                                     TGSI_FILE_OUTPUT,
437                                     vs_output );
438       }
439
440       if (data.file != file_XMM) {
441          struct x86_reg tmp = aos_get_xmm_reg( cp );
442          sse_movaps(cp->func, tmp, data);
443          data = tmp;
444       }
445       
446       if (!emit_output( cp, 
447                         x86_make_disp( cp->outbuf_ECX, offset ),
448                         data, 
449                         format ))
450          return FALSE;
451
452       aos_release_xmm_reg( cp, data.idx );
453
454       cp->insn_counter++;
455    }
456
457    return TRUE;
458 }
459
460 #endif