b1b9993b3c5e06f74cdc5ce7024c863d15e908c5
[platform/core/uifw/dali-toolkit.git] / character-set-conversion.cpp
1 /*
2  * Copyright (c) 2015 Samsung Electronics Co., Ltd.
3  *
4  * Licensed under the Apache License, Version 2.0 (the "License");
5  * you may not use this file except in compliance with the License.
6  * You may obtain a copy of the License at
7  *
8  * http://www.apache.org/licenses/LICENSE-2.0
9  *
10  * Unless required by applicable law or agreed to in writing, software
11  * distributed under the License is distributed on an "AS IS" BASIS,
12  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
13  * See the License for the specific language governing permissions and
14  * limitations under the License.
15  *
16  */
17
18 // FILE HEADER
19 #include <dali-toolkit/internal/text/character-set-conversion.h>
20
21 namespace Dali
22 {
23
24 namespace Toolkit
25 {
26
27 namespace
28 {
29   const static uint8_t U1 = 1u;
30   const static uint8_t U2 = 2u;
31   const static uint8_t U3 = 3u;
32   const static uint8_t U4 = 4u;
33   const static uint8_t U0 = 0u;
34   const static uint8_t UTF8_LENGTH[256] = {
35     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
36     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
37     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
38     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
39     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
40     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
41     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
42     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
43     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, // lead byte = 0xxx xxxx (U+0000 - U+007F + some extended ascii characters)
44     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
45     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
46     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
47     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
48     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
49     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
50     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
51     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
52     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
53     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
54     U1, U1,                                 //
55
56     U2, U2, U2, U2, U2, U2, U2, U2, U2, U2, //
57     U2, U2, U2, U2, U2, U2, U2, U2, U2, U2, // lead byte = 110x xxxx (U+0080 - U+07FF)
58     U2, U2, U2, U2, U2, U2, U2, U2, U2, U2, //
59     U2, U2,                                 //
60
61     U3, U3, U3, U3, U3, U3, U3, U3, U3, U3, // lead byte = 1110 xxxx (U+0800 - U+FFFF)
62     U3, U3, U3, U3, U3, U3,                 //
63
64     U4, U4, U4, U4, U4, U4, U4, U4,         // lead byte = 1111 0xxx (U+10000 - U+1FFFFF)
65
66     U0, U0, U0, U0,                         // Non valid.
67     U0, U0, U0, U0,                         // Non valid.
68   };
69 } // namespace
70
71 uint32_t GetNumberOfUtf8Characters( const uint8_t* const utf8, uint32_t length )
72 {
73   uint32_t numberOfCharacters = 0u;
74
75   const uint8_t* begin = utf8;
76   const uint8_t* end = utf8 + length;
77
78   for( ; begin < end ; begin += UTF8_LENGTH[*begin], ++numberOfCharacters );
79
80   return numberOfCharacters;
81 }
82
83 uint32_t GetNumberOfUtf8Bytes( const uint32_t* const utf32, uint32_t numberOfCharacters )
84 {
85   uint32_t numberOfBytes = 0u;
86
87   const uint32_t* begin = utf32;
88   const uint32_t* end = utf32 + numberOfCharacters;
89
90   for( ; begin < end; ++begin )
91   {
92     const uint32_t code = *begin;
93
94     if( code < 0x80u )
95     {
96       ++numberOfBytes;
97     }
98     else if( code < 0x800u )
99     {
100       numberOfBytes += U2;
101     }
102     else if( code < 0x10000u )
103     {
104       numberOfBytes += U3;
105     }
106     else if( code < 0x200000u )
107     {
108       numberOfBytes += U4;
109     }
110   }
111
112   return numberOfBytes;
113 }
114
115 uint32_t Utf8ToUtf32( const uint8_t* const utf8, uint32_t length, uint32_t* utf32 )
116 {
117   uint32_t numberOfCharacters = 0u;
118
119   const uint8_t* begin = utf8;
120   const uint8_t* end = utf8 + length;
121
122   for( ; begin < end ; ++numberOfCharacters )
123   {
124     const uint8_t leadByte = *begin;
125
126     switch( UTF8_LENGTH[leadByte] )
127     {
128       case U1:
129       {
130         *utf32++ = leadByte;
131         begin++;
132         break;
133       }
134
135       case U2:
136       {
137         uint32_t& code = *utf32++;
138         code = leadByte & 0x1fu;
139         begin++;
140         code <<= 6u;
141         code |= *begin++ & 0x3fu;
142         break;
143       }
144
145       case U3:
146       {
147         uint32_t& code = *utf32++;
148         code = leadByte & 0x0fu;
149         begin++;
150         code <<= 6u;
151         code |= *begin++ & 0x3fu;
152         code <<= 6u;
153         code |= *begin++ & 0x3fu;
154         break;
155       }
156
157       case U4:
158       {
159         uint32_t& code = *utf32++;
160         code = leadByte & 0x07u;
161         begin++;
162         code <<= 6u;
163         code |= *begin++ & 0x3fu;
164         code <<= 6u;
165         code |= *begin++ & 0x3fu;
166         code <<= 6u;
167         code |= *begin++ & 0x3fu;
168         break;
169       }
170     }
171   }
172
173   return numberOfCharacters;
174 }
175
176 uint32_t Utf32ToUtf8( const uint32_t* const utf32, uint32_t numberOfCharacters, uint8_t* utf8 )
177 {
178   const uint32_t* begin = utf32;
179   const uint32_t* end = utf32 + numberOfCharacters;
180
181   uint8_t* utf8Begin = utf8;
182
183   for( ; begin < end; ++begin )
184   {
185     const uint32_t code = *begin;
186
187     if( code < 0x80u )
188     {
189       *utf8++ = code;
190     }
191     else if( code < 0x800u )
192     {
193       *utf8++ = static_cast<uint8_t>(   code >> 6u )           | 0xc0u; // lead byte for 2 byte sequence
194       *utf8++ = static_cast<uint8_t>(   code          & 0x3f ) | 0x80u; // continuation byte
195     }
196     else if( code < 0x10000u )
197     {
198       *utf8++ = static_cast<uint8_t>(   code >> 12u )          | 0xe0u; // lead byte for 2 byte sequence
199       *utf8++ = static_cast<uint8_t>( ( code >> 6u )  & 0x3f ) | 0x80u; // continuation byte
200       *utf8++ = static_cast<uint8_t>(   code          & 0x3f ) | 0x80u; // continuation byte
201     }
202     else if( code < 0x200000u )
203     {
204       *utf8++ = static_cast<uint8_t>(   code >> 18u )          | 0xf0u; // lead byte for 2 byte sequence
205       *utf8++ = static_cast<uint8_t>( ( code >> 12u ) & 0x3f ) | 0x80u; // continuation byte
206       *utf8++ = static_cast<uint8_t>( ( code >> 6u )  & 0x3f ) | 0x80u; // continuation byte
207       *utf8++ = static_cast<uint8_t>(   code          & 0x3f ) | 0x80u; // continuation byte
208     }
209   }
210
211   return utf8 - utf8Begin;
212 }
213
214 void Utf32ToUtf8( const uint32_t* const utf32, uint32_t numberOfCharacters, std::string& utf8 )
215 {
216   utf8.clear();
217
218   uint32_t numberOfBytes = GetNumberOfUtf8Bytes( &utf32[0], numberOfCharacters );
219   utf8.resize( numberOfBytes );
220
221   // This is a bit horrible but std::string returns a (signed) char*
222   Utf32ToUtf8( utf32, numberOfCharacters, reinterpret_cast<uint8_t*>(&utf8[0]) );
223 }
224
225 } // namespace Toolkit
226
227 } // namespace Dali