9b7b4a11251b9810ca415ce0a8924d21de614b72
[platform/upstream/glibc.git] / iconv / skeleton.c
1 /* Skeleton for a conversion module.
2    Copyright (C) 1998, 1999, 2000 Free Software Foundation, Inc.
3    This file is part of the GNU C Library.
4    Contributed by Ulrich Drepper <drepper@cygnus.com>, 1998.
5
6    The GNU C Library is free software; you can redistribute it and/or
7    modify it under the terms of the GNU Library General Public License as
8    published by the Free Software Foundation; either version 2 of the
9    License, or (at your option) any later version.
10
11    The GNU C Library is distributed in the hope that it will be useful,
12    but WITHOUT ANY WARRANTY; without even the implied warranty of
13    MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
14    Library General Public License for more details.
15
16    You should have received a copy of the GNU Library General Public
17    License along with the GNU C Library; see the file COPYING.LIB.  If not,
18    write to the Free Software Foundation, Inc., 59 Temple Place - Suite 330,
19    Boston, MA 02111-1307, USA.  */
20
21 /* This file can be included to provide definitions of several things
22    many modules have in common.  It can be customized using the following
23    macros:
24
25      DEFINE_INIT        define the default initializer.  This requires the
26                         following symbol to be defined.
27
28      CHARSET_NAME       string with official name of the coded character
29                         set (in all-caps)
30
31      DEFINE_FINI        define the default destructor function.
32
33      MIN_NEEDED_FROM    minimal number of bytes needed for the from-charset.
34      MIN_NEEDED_TO      likewise for the to-charset.
35
36      MAX_NEEDED_FROM    maximal number of bytes needed for the from-charset.
37                         This macro is optional, it defaults to MIN_NEEDED_FROM.
38      MAX_NEEDED_TO      likewise for the to-charset.
39
40      DEFINE_DIRECTION_OBJECTS
41                         two objects will be defined to be used when the
42                         `gconv' function must only distinguish two
43                         directions.  This is implied by DEFINE_INIT.
44                         If this macro is not defined the following
45                         macro must be available.
46
47      FROM_DIRECTION     this macro is supposed to return a value != 0
48                         if we convert from the current character set,
49                         otherwise it return 0.
50
51      EMIT_SHIFT_TO_INIT this symbol is optional.  If it is defined it
52                         defines some code which writes out a sequence
53                         of characters which bring the current state into
54                         the initial state.
55
56      FROM_LOOP          name of the function implementing the conversion
57                         from the current characters.
58      TO_LOOP            likewise for the other direction
59
60      RESET_STATE        in case of an error we must reset the state for
61                         the rerun so this macro must be defined for
62                         stateful encodings.  It takes an argument which
63                         is nonzero when saving.
64
65      RESET_INPUT_BUFFER If the input character sets allow this the macro
66                         can be defined to reset the input buffer pointers
67                         to cover only those characters up to the error.
68
69      FUNCTION_NAME      if not set the conversion function is named `gconv'.
70
71      PREPARE_LOOP       optional code preparing the conversion loop.  Can
72                         contain variable definitions.
73      END_LOOP           also optional, may be used to store information
74
75      EXTRA_LOOP_ARGS    optional macro specifying extra arguments passed
76                         to loop function.
77  */
78
79 #include <assert.h>
80 #include <gconv.h>
81 #include <string.h>
82 #define __need_size_t
83 #define __need_NULL
84 #include <stddef.h>
85
86 #ifndef STATIC_GCONV
87 # include <dlfcn.h>
88 #endif
89
90 #ifndef DL_CALL_FCT
91 # define DL_CALL_FCT(fct, args) fct args
92 #endif
93
94 /* The direction objects.  */
95 #if DEFINE_DIRECTION_OBJECTS || DEFINE_INIT
96 static int from_object;
97 static int to_object;
98
99 # ifndef FROM_DIRECTION
100 #  define FROM_DIRECTION (step->__data == &from_object)
101 # endif
102 #else
103 # ifndef FROM_DIRECTION
104 #  error "FROM_DIRECTION must be provided if direction objects are not used"
105 # endif
106 #endif
107
108
109 /* How many bytes are needed at most for the from-charset.  */
110 #ifndef MAX_NEEDED_FROM
111 # define MAX_NEEDED_FROM        MIN_NEEDED_FROM
112 #endif
113
114 /* Same for the to-charset.  */
115 #ifndef MAX_NEEDED_TO
116 # define MAX_NEEDED_TO          MIN_NEEDED_TO
117 #endif
118
119
120 /* Define macros which can access unaligned buffers.  These macros are
121    supposed to be used only in code outside the inner loops.  For the inner
122    loops we have other definitions which allow optimized access.  */
123 #ifdef _STRING_ARCH_unaligned
124 /* We can handle unaligned memory access.  */
125 # define get16u(addr) *((uint16_t *) (addr))
126 # define get32u(addr) *((uint32_t *) (addr))
127
128 /* We need no special support for writing values either.  */
129 # define put16u(addr, val) *((uint16_t *) (addr)) = (val)
130 # define put32u(addr, val) *((uint32_t *) (addr)) = (val)
131 #else
132 /* Distinguish between big endian and little endian.  */
133 # if __BYTE_ORDER == __LITTLE_ENDIAN
134 #  define get16u(addr) \
135      (((__const unsigned char *) (addr))[1] << 8                              \
136       | ((__const unsigned char *) (addr))[0])
137 #  define get32u(addr) \
138      (((((__const unsigned char *) (addr))[3] << 8                            \
139         | ((__const unsigned char *) (addr))[2]) << 8                         \
140        | ((__const unsigned char *) (addr))[1]) << 8                          \
141       | ((__const unsigned char *) (addr))[0])
142
143 #  define put16u(addr, val) \
144      ({ uint16_t __val = (val);                                               \
145         ((unsigned char *) (addr))[0] = __val;                                \
146         ((unsigned char *) (addr))[1] = __val >> 8;                           \
147         (void) 0; })
148 #  define put32u(addr, val) \
149      ({ uint32_t __val = (val);                                               \
150         ((unsigned char *) (addr))[0] = __val;                                \
151         __val >>= 8;                                                          \
152         ((unsigned char *) (addr))[1] = __val;                                \
153         __val >>= 8;                                                          \
154         ((unsigned char *) (addr))[2] = __val;                                \
155         __val >>= 8;                                                          \
156         ((unsigned char *) (addr))[3] = __val;                                \
157         (void) 0; })
158 # else
159 #  define get16u(addr) \
160      (((__const unsigned char *) (addr))[0] << 8                              \
161       | ((__const unsigned char *) (addr))[1])
162 #  define get32u(addr) \
163      (((((__const unsigned char *) (addr))[0] << 8                            \
164         | ((__const unsigned char *) (addr))[1]) << 8                         \
165        | ((__const unsigned char *) (addr))[2]) << 8                          \
166       | ((__const unsigned char *) (addr))[3])
167
168 #  define put16u(addr, val) \
169      ({ uint16_t __val = (val);                                               \
170         ((unsigned char *) (addr))[1] = __val;                                \
171         ((unsigned char *) (addr))[0] = __val >> 8;                           \
172         (void) 0; })
173 #  define put32u(addr, val) \
174      ({ uint32_t __val = (val);                                               \
175         ((unsigned char *) (addr))[3] = __val;                                \
176         __val >>= 8;                                                          \
177         ((unsigned char *) (addr))[2] = __val;                                \
178         __val >>= 8;                                                          \
179         ((unsigned char *) (addr))[1] = __val;                                \
180         __val >>= 8;                                                          \
181         ((unsigned char *) (addr))[0] = __val;                                \
182         (void) 0; })
183 # endif
184 #endif
185
186
187 /* For conversions from a fixed width character sets to another fixed width
188    character set we we can define RESET_INPUT_BUFFER is necessary.  */
189 #if !defined RESET_INPUT_BUFFER && !defined SAVE_RESET_STATE
190 # if MIN_NEEDED_FROM == MAX_NEEDED_FROM && MIN_NEEDED_TO == MAX_NEEDED_TO
191 /* We have to use these `if's here since the compiler cannot know that
192    (outbuf - outerr) is always divisible by MIN_NEEDED_TO.  */
193 #  define RESET_INPUT_BUFFER \
194   if (MIN_NEEDED_FROM % MIN_NEEDED_TO == 0)                                   \
195     *inptrp -= (outbuf - outerr) * (MIN_NEEDED_FROM / MIN_NEEDED_TO);         \
196   else if (MIN_NEEDED_TO % MIN_NEEDED_FROM == 0)                              \
197     *inptrp -= (outbuf - outerr) / (MIN_NEEDED_TO / MIN_NEEDED_FROM);         \
198   else                                                                        \
199     *inptrp -= ((outbuf - outerr) / MIN_NEEDED_TO) * MIN_NEEDED_FROM
200 # endif
201 #endif
202
203
204 /* The default init function.  It simply matches the name and initializes
205    the step data to point to one of the objects above.  */
206 #if DEFINE_INIT
207 # ifndef CHARSET_NAME
208 #  error "CHARSET_NAME not defined"
209 # endif
210
211 int
212 gconv_init (struct __gconv_step *step)
213 {
214   /* Determine which direction.  */
215   if (strcmp (step->__from_name, CHARSET_NAME) == 0)
216     {
217       step->__data = &from_object;
218
219       step->__min_needed_from = MIN_NEEDED_FROM;
220       step->__max_needed_from = MAX_NEEDED_FROM;
221       step->__min_needed_to = MIN_NEEDED_TO;
222       step->__max_needed_to = MAX_NEEDED_TO;
223     }
224   else if (__builtin_expect (strcmp (step->__to_name, CHARSET_NAME), 0) == 0)
225     {
226       step->__data = &to_object;
227
228       step->__min_needed_from = MIN_NEEDED_TO;
229       step->__max_needed_from = MAX_NEEDED_TO;
230       step->__min_needed_to = MIN_NEEDED_FROM;
231       step->__max_needed_to = MAX_NEEDED_FROM;
232     }
233   else
234     return __GCONV_NOCONV;
235
236 #ifdef RESET_STATE
237   step->__stateful = 1;
238 #else
239   step->__stateful = 0;
240 #endif
241
242   return __GCONV_OK;
243 }
244 #endif
245
246
247 /* The default destructor function does nothing in the moment and so
248    be define it at all.  But we still provide the macro just in case
249    we need it some day.  */
250 #if DEFINE_FINI
251 #endif
252
253
254 /* If no arguments have to passed to the loop function define the macro
255    as empty.  */
256 #ifndef EXTRA_LOOP_ARGS
257 # define EXTRA_LOOP_ARGS
258 #endif
259
260
261 /* This is the actual conversion function.  */
262 #ifndef FUNCTION_NAME
263 # define FUNCTION_NAME  gconv
264 #endif
265
266 /* The macros are used to access the function to convert single characters.  */
267 #define SINGLE(fct) SINGLE2 (fct)
268 #define SINGLE2(fct) fct##_single
269
270
271 int
272 FUNCTION_NAME (struct __gconv_step *step, struct __gconv_step_data *data,
273                const unsigned char **inptrp, const unsigned char *inend,
274                size_t *irreversible, int do_flush, int consume_incomplete)
275 {
276   struct __gconv_step *next_step = step + 1;
277   struct __gconv_step_data *next_data = data + 1;
278   __gconv_fct fct;
279   int status;
280
281   fct = (data->__flags & __GCONV_IS_LAST) ? NULL : next_step->__fct;
282
283   /* If the function is called with no input this means we have to reset
284      to the initial state.  The possibly partly converted input is
285      dropped.  */
286   if (__builtin_expect (do_flush, 0))
287     {
288       status = __GCONV_OK;
289
290 #ifdef EMIT_SHIFT_TO_INIT
291       /* Emit the escape sequence to reset the state.  */
292       EMIT_SHIFT_TO_INIT;
293 #endif
294       /* Call the steps down the chain if there are any but only if we
295          successfully emitted the escape sequence.  */
296       if (status == __GCONV_OK && ! (data->__flags & __GCONV_IS_LAST))
297         status = DL_CALL_FCT (fct, (next_step, next_data, NULL, NULL,
298                                     irreversible, 1, consume_incomplete));
299     }
300   else
301     {
302       /* We preserve the initial values of the pointer variables.  */
303       const unsigned char *inptr = *inptrp;
304       unsigned char *outbuf = data->__outbuf;
305       unsigned char *outend = data->__outbufend;
306       unsigned char *outstart;
307       /* This variable is used to count the number of characters we
308          actually converted.  */
309       size_t lirreversible = 0;
310 #if defined _STRING_ARCH_unaligned \
311     || MIN_NEEDED_FROM == 1 || MAX_NEEDED_FROM % MIN_NEEDED_FROM != 0 \
312     || MIN_NEEDED_TO == 1 || MAX_NEEDED_TO % MIN_NEEDED_TO != 0
313 # define unaligned 0
314 #else
315       int unaligned;
316 # define GEN_unaligned(name) GEN_unaligned2 (name)
317 # define GEN_unaligned2(name) name##_unaligned
318 #endif
319
320 #ifdef PREPARE_LOOP
321       PREPARE_LOOP
322 #endif
323
324 #if MAX_NEEDED_FROM > 1 || MAX_NEEDED_TO > 1
325       /* If the function is used to implement the mb*towc*() or wc*tomb*()
326          functions we must test whether any bytes from the last call are
327          stored in the `state' object.  */
328       if (((MAX_NEEDED_FROM > 1 && FROM_DIRECTION)
329            || (MAX_NEEDED_TO > 1 && !FROM_DIRECTION))
330           && consume_incomplete && (data->__statep->__count & 7) != 0)
331         {
332           /* Yep, we have some bytes left over.  Process them now.  */
333
334 # if MAX_NEEDED_FROM > 1
335           if (MAX_NEEDED_TO == 1 || FROM_DIRECTION)
336             status = SINGLE(FROM_LOOP) (inptrp, inend, &outbuf, outend,
337                                         data->__statep, data->__flags,
338                                         step->__data, &lirreversible
339                                         EXTRA_LOOP_ARGS);
340 # endif
341 # if MAX_NEEDED_FROM > 1 && MAX_NEEDED_TO > 1 && !ONE_DIRECTION
342           else
343 # endif
344 # if MAX_NEEDED_TO > 1 && !ONE_DIRECTION
345             status = SINGLE(TO_LOOP) (inptrp, inend, &outbuf, outend,
346                                       data->__statep, data->__flags,
347                                       step->__data, &lirreversible
348                                       EXTRA_LOOP_ARGS);
349 # endif
350
351           if (__builtin_expect (status, __GCONV_OK) != __GCONV_OK)
352             return status;
353         }
354 #endif
355
356 #if !defined _STRING_ARCH_unaligned \
357     && MIN_NEEDED_FROM != 1 && MAX_NEEDED_FROM % MIN_NEEDED_FROM == 0 \
358     && MIN_NEEDED_TO != 1 && MAX_NEEDED_TO % MIN_NEEDED_TO == 0
359       /* The following assumes that encodings, which have a variable length
360          what might unalign a buffer even though it is a aligned in the
361          beginning, either don't have the minimal number of bytes as a divisor
362          of the maximum length or have a minimum length of 1.  This is true
363          for all known and supported encodings.  */
364       unaligned = ((FROM_DIRECTION
365                     && ((uintptr_t) inptr % MIN_NEEDED_FROM != 0
366                         || ((data->__flags & __GCONV_IS_LAST)
367                             && (uintptr_t) outbuf % MIN_NEEDED_TO != 0)))
368                    || (!FROM_DIRECTION
369                        && (((data->__flags & __GCONV_IS_LAST)
370                             && (uintptr_t) outbuf % MIN_NEEDED_FROM != 0)
371                            || (uintptr_t) inptr % MIN_NEEDED_TO != 0)));
372 #endif
373
374       do
375         {
376           /* Remember the start value for this round.  */
377           inptr = *inptrp;
378           /* The outbuf buffer is empty.  */
379           outstart = outbuf;
380
381 #ifdef SAVE_RESET_STATE
382           SAVE_RESET_STATE (1);
383 #endif
384
385           if (__builtin_expect (!unaligned, 1))
386             {
387               if (FROM_DIRECTION)
388                 /* Run the conversion loop.  */
389                 status = FROM_LOOP (inptrp, inend, &outbuf, outend,
390                                     data->__statep, data->__flags,
391                                     step->__data, &lirreversible
392                                     EXTRA_LOOP_ARGS);
393               else
394                 /* Run the conversion loop.  */
395                 status = TO_LOOP (inptrp, inend, &outbuf, outend,
396                                   data->__statep, data->__flags,
397                                   step->__data, &lirreversible
398                                   EXTRA_LOOP_ARGS);
399             }
400 #if !defined _STRING_ARCH_unaligned \
401     && MIN_NEEDED_FROM != 1 && MAX_NEEDED_FROM % MIN_NEEDED_FROM == 0 \
402     && MIN_NEEDED_TO != 1 && MAX_NEEDED_TO % MIN_NEEDED_TO == 0
403           else
404             {
405               if (FROM_DIRECTION)
406                 /* Run the conversion loop.  */
407                 status = GEN_unaligned (FROM_LOOP) (inptrp, inend, &outbuf,
408                                                     outend, data->__statep,
409                                                     data->__flags,
410                                                     step->__data,
411                                                     &lirreversible
412                                                     EXTRA_LOOP_ARGS);
413               else
414                 /* Run the conversion loop.  */
415                 status = GEN_unaligned (TO_LOOP) (inptrp, inend, &outbuf,
416                                                   outend, data->__statep,
417                                                   data->__flags,
418                                                   step->__data,
419                                                   &lirreversible
420                                                   EXTRA_LOOP_ARGS);
421             }
422 #endif
423
424           /* We finished one use of the loops.  */
425           ++data->__invocation_counter;
426
427           /* If this is the last step leave the loop, there is nothing
428              we can do.  */
429           if (__builtin_expect (data->__flags & __GCONV_IS_LAST, 0))
430             {
431               /* Store information about how many bytes are available.  */
432               data->__outbuf = outbuf;
433
434               /* Remember how many non-identical characters we
435                  converted in a irreversible way.  */
436               *irreversible += lirreversible;
437
438               break;
439             }
440
441           /* Write out all output which was produced.  */
442           if (__builtin_expect (outbuf > outstart, 1))
443             {
444               const unsigned char *outerr = data->__outbuf;
445               int result;
446
447               result = DL_CALL_FCT (fct, (next_step, next_data, &outerr,
448                                           outbuf, irreversible, 0,
449                                           consume_incomplete));
450
451               if (result != __GCONV_EMPTY_INPUT)
452                 {
453                   if (__builtin_expect (outerr != outbuf, 0))
454                     {
455 #ifdef RESET_INPUT_BUFFER
456                       RESET_INPUT_BUFFER;
457 #else
458                       /* We have a problem with the in on of the functions
459                          below.  Undo the conversion upto the error point.  */
460                       size_t nstatus;
461
462                       /* Reload the pointers.  */
463                       *inptrp = inptr;
464                       outbuf = outstart;
465
466                       /* Reset the state.  */
467 # ifdef SAVE_RESET_STATE
468                       SAVE_RESET_STATE (0);
469 # endif
470
471                       /* XXX Handle unaligned access here as well.  */
472                       if (FROM_DIRECTION)
473                         /* Run the conversion loop.  */
474                         nstatus = FROM_LOOP ((const unsigned char **) inptrp,
475                                              (const unsigned char *) inend,
476                                              (unsigned char **) &outbuf,
477                                              (unsigned char *) outerr,
478                                              data->__statep, data->__flags,
479                                              step->__data, &lirreversible
480                                              EXTRA_LOOP_ARGS);
481                       else
482                         /* Run the conversion loop.  */
483                         nstatus = TO_LOOP ((const unsigned char **) inptrp,
484                                            (const unsigned char *) inend,
485                                            (unsigned char **) &outbuf,
486                                            (unsigned char *) outerr,
487                                            data->__statep, data->__flags,
488                                            step->__data, &lirreversible
489                                            EXTRA_LOOP_ARGS);
490
491                       /* We must run out of output buffer space in this
492                          rerun.  */
493                       assert (outbuf == outerr);
494                       assert (nstatus == __GCONV_FULL_OUTPUT);
495
496                       /* If we haven't consumed a single byte decrement
497                          the invocation counter.  */
498                       if (__builtin_expect (outbuf == outstart, 0))
499                         --data->__invocation_counter;
500 #endif  /* reset input buffer */
501                     }
502
503                   /* Change the status.  */
504                   status = result;
505                 }
506               else
507                 /* All the output is consumed, we can make another run
508                    if everything was ok.  */
509                 if (status == __GCONV_FULL_OUTPUT)
510                   status = __GCONV_OK;
511             }
512         }
513       while (status == __GCONV_OK);
514
515 #ifdef END_LOOP
516       END_LOOP
517 #endif
518
519       /* If we are supposed to consume all character store now all of the
520          remaining characters in the `state' object.  */
521 #if MAX_NEEDED_FROM > 1 || MAX_NEEDED_TO > 1
522       if (((MAX_NEEDED_FROM > 1 && FROM_DIRECTION)
523            || (MAX_NEEDED_TO > 1 && !FROM_DIRECTION))
524           && __builtin_expect (consume_incomplete, 0)
525           && status == __GCONV_INCOMPLETE_INPUT)
526         {
527 # ifdef STORE_REST
528           mbstate_t *state = data->__statep;
529
530           STORE_REST
531 # else
532           size_t cnt;
533
534           /* Make sure the remaining bytes fit into the state objects
535              buffer.  */
536           assert (inend - *inptrp < 4);
537
538           for (cnt = 0; *inptrp < inend; ++cnt)
539             data->__statep->__value.__wchb[cnt] = *(*inptrp)++;
540           data->__statep->__count &= ~7;
541           data->__statep->__count |= cnt;
542 # endif
543         }
544 #endif
545     }
546
547   return status;
548 }
549
550 #undef DEFINE_INIT
551 #undef CHARSET_NAME
552 #undef DEFINE_FINI
553 #undef MIN_NEEDED_FROM
554 #undef MIN_NEEDED_TO
555 #undef MAX_NEEDED_FROM
556 #undef MAX_NEEDED_TO
557 #undef DEFINE_DIRECTION_OBJECTS
558 #undef FROM_DIRECTION
559 #undef EMIT_SHIFT_TO_INIT
560 #undef FROM_LOOP
561 #undef TO_LOOP
562 #undef RESET_STATE
563 #undef RESET_INPUT_BUFFER
564 #undef FUNCTION_NAME
565 #undef PREPARE_LOOP
566 #undef END_LOOP
567 #undef ONE_DIRECTION
568 #undef STORE_REST