Rendering API clean-up
[platform/core/uifw/dali-toolkit.git] / dali-toolkit / internal / text / character-set-conversion.cpp
1 /*
2  * Copyright (c) 2015 Samsung Electronics Co., Ltd.
3  *
4  * Licensed under the Apache License, Version 2.0 (the "License");
5  * you may not use this file except in compliance with the License.
6  * You may obtain a copy of the License at
7  *
8  * http://www.apache.org/licenses/LICENSE-2.0
9  *
10  * Unless required by applicable law or agreed to in writing, software
11  * distributed under the License is distributed on an "AS IS" BASIS,
12  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
13  * See the License for the specific language governing permissions and
14  * limitations under the License.
15  *
16  */
17
18 // FILE HEADER
19 #include <dali-toolkit/internal/text/character-set-conversion.h>
20
21 namespace Dali
22 {
23
24 namespace Toolkit
25 {
26
27 namespace Text
28 {
29
30 namespace
31 {
32   const static uint8_t U1 = 1u;
33   const static uint8_t U2 = 2u;
34   const static uint8_t U3 = 3u;
35   const static uint8_t U4 = 4u;
36   const static uint8_t U0 = 0u;
37   const static uint8_t UTF8_LENGTH[256] = {
38     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
39     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
40     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
41     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
42     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
43     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
44     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
45     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
46     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, // lead byte = 0xxx xxxx (U+0000 - U+007F + some extended ascii characters)
47     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
48     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
49     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
50     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
51     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
52     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
53     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
54     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
55     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
56     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
57     U1, U1,                                 //
58
59     U2, U2, U2, U2, U2, U2, U2, U2, U2, U2, //
60     U2, U2, U2, U2, U2, U2, U2, U2, U2, U2, // lead byte = 110x xxxx (U+0080 - U+07FF)
61     U2, U2, U2, U2, U2, U2, U2, U2, U2, U2, //
62     U2, U2,                                 //
63
64     U3, U3, U3, U3, U3, U3, U3, U3, U3, U3, // lead byte = 1110 xxxx (U+0800 - U+FFFF)
65     U3, U3, U3, U3, U3, U3,                 //
66
67     U4, U4, U4, U4, U4, U4, U4, U4,         // lead byte = 1111 0xxx (U+10000 - U+1FFFFF)
68
69     U0, U0, U0, U0,                         // Non valid.
70     U0, U0, U0, U0,                         // Non valid.
71   };
72
73   const uint8_t CR = 0xd;
74   const uint8_t LF = 0xa;
75 } // namespace
76
77 uint8_t GetUtf8Length( uint8_t utf8LeadByte )
78 {
79   return UTF8_LENGTH[utf8LeadByte];
80 }
81
82 uint32_t GetNumberOfUtf8Characters( const uint8_t* const utf8, uint32_t length )
83 {
84   uint32_t numberOfCharacters = 0u;
85
86   const uint8_t* begin = utf8;
87   const uint8_t* end = utf8 + length;
88
89   for( ; begin < end ; begin += UTF8_LENGTH[*begin], ++numberOfCharacters );
90
91   return numberOfCharacters;
92 }
93
94 uint32_t GetNumberOfUtf8Bytes( const uint32_t* const utf32, uint32_t numberOfCharacters )
95 {
96   uint32_t numberOfBytes = 0u;
97
98   const uint32_t* begin = utf32;
99   const uint32_t* end = utf32 + numberOfCharacters;
100
101   for( ; begin < end; ++begin )
102   {
103     const uint32_t code = *begin;
104
105     if( code < 0x80u )
106     {
107       ++numberOfBytes;
108     }
109     else if( code < 0x800u )
110     {
111       numberOfBytes += U2;
112     }
113     else if( code < 0x10000u )
114     {
115       numberOfBytes += U3;
116     }
117     else if( code < 0x200000u )
118     {
119       numberOfBytes += U4;
120     }
121   }
122
123   return numberOfBytes;
124 }
125
126 uint32_t Utf8ToUtf32( const uint8_t* const utf8, uint32_t length, uint32_t* utf32 )
127 {
128   uint32_t numberOfCharacters = 0u;
129
130   const uint8_t* begin = utf8;
131   const uint8_t* end = utf8 + length;
132
133   for( ; begin < end ; ++numberOfCharacters )
134   {
135     const uint8_t leadByte = *begin;
136
137     switch( UTF8_LENGTH[leadByte] )
138     {
139       case U1:
140       {
141         if( CR == leadByte )
142         {
143           // Replace CR+LF or CR by LF
144           *utf32++ = LF;
145
146           // Look ahead if the next one is a LF.
147           ++begin;
148           if( begin < end )
149           {
150             if( LF == *begin )
151             {
152               ++begin;
153             }
154           }
155         }
156         else
157         {
158           *utf32++ = leadByte;
159           begin++;
160         }
161         break;
162       }
163
164       case U2:
165       {
166         uint32_t& code = *utf32++;
167         code = leadByte & 0x1fu;
168         begin++;
169         code <<= 6u;
170         code |= *begin++ & 0x3fu;
171         break;
172       }
173
174       case U3:
175       {
176         uint32_t& code = *utf32++;
177         code = leadByte & 0x0fu;
178         begin++;
179         code <<= 6u;
180         code |= *begin++ & 0x3fu;
181         code <<= 6u;
182         code |= *begin++ & 0x3fu;
183         break;
184       }
185
186       case U4:
187       {
188         uint32_t& code = *utf32++;
189         code = leadByte & 0x07u;
190         begin++;
191         code <<= 6u;
192         code |= *begin++ & 0x3fu;
193         code <<= 6u;
194         code |= *begin++ & 0x3fu;
195         code <<= 6u;
196         code |= *begin++ & 0x3fu;
197         break;
198       }
199     }
200   }
201
202   return numberOfCharacters;
203 }
204
205 uint32_t Utf32ToUtf8( const uint32_t* const utf32, uint32_t numberOfCharacters, uint8_t* utf8 )
206 {
207   const uint32_t* begin = utf32;
208   const uint32_t* end = utf32 + numberOfCharacters;
209
210   uint8_t* utf8Begin = utf8;
211
212   for( ; begin < end; ++begin )
213   {
214     const uint32_t code = *begin;
215
216     if( code < 0x80u )
217     {
218       *utf8++ = code;
219     }
220     else if( code < 0x800u )
221     {
222       *utf8++ = static_cast<uint8_t>(   code >> 6u )           | 0xc0u; // lead byte for 2 byte sequence
223       *utf8++ = static_cast<uint8_t>(   code          & 0x3f ) | 0x80u; // continuation byte
224     }
225     else if( code < 0x10000u )
226     {
227       *utf8++ = static_cast<uint8_t>(   code >> 12u )          | 0xe0u; // lead byte for 2 byte sequence
228       *utf8++ = static_cast<uint8_t>( ( code >> 6u )  & 0x3f ) | 0x80u; // continuation byte
229       *utf8++ = static_cast<uint8_t>(   code          & 0x3f ) | 0x80u; // continuation byte
230     }
231     else if( code < 0x200000u )
232     {
233       *utf8++ = static_cast<uint8_t>(   code >> 18u )          | 0xf0u; // lead byte for 2 byte sequence
234       *utf8++ = static_cast<uint8_t>( ( code >> 12u ) & 0x3f ) | 0x80u; // continuation byte
235       *utf8++ = static_cast<uint8_t>( ( code >> 6u )  & 0x3f ) | 0x80u; // continuation byte
236       *utf8++ = static_cast<uint8_t>(   code          & 0x3f ) | 0x80u; // continuation byte
237     }
238   }
239
240   return utf8 - utf8Begin;
241 }
242
243 void Utf32ToUtf8( const uint32_t* const utf32, uint32_t numberOfCharacters, std::string& utf8 )
244 {
245   utf8.clear();
246
247   uint32_t numberOfBytes = GetNumberOfUtf8Bytes( &utf32[0], numberOfCharacters );
248   utf8.resize( numberOfBytes );
249
250   // This is a bit horrible but std::string returns a (signed) char*
251   Utf32ToUtf8( utf32, numberOfCharacters, reinterpret_cast<uint8_t*>(&utf8[0]) );
252 }
253
254 } // namespace Text
255
256 } // namespace Toolkit
257
258 } // namespace Dali