dali-toolkit/internal/text/character-set-conversion.cpp

   1 /*
   2  * Copyright (c) 2015 Samsung Electronics Co., Ltd.
   3  *
   4  * Licensed under the Apache License, Version 2.0 (the "License");
   5  * you may not use this file except in compliance with the License.
   6  * You may obtain a copy of the License at
   7  *
   8  * http://www.apache.org/licenses/LICENSE-2.0
   9  *
  10  * Unless required by applicable law or agreed to in writing, software
  11  * distributed under the License is distributed on an "AS IS" BASIS,
  12  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
  13  * See the License for the specific language governing permissions and
  14  * limitations under the License.
  15  *
  16  */
  17
  18 // FILE HEADER
  19 #include <dali-toolkit/internal/text/character-set-conversion.h>
  20
  21 namespace Dali
  22 {
  23
  24 namespace Toolkit
  25 {
  26
  27 namespace Text
  28 {
  29
  30 namespace
  31 {
  32   const static uint8_t U1 = 1u;
  33   const static uint8_t U2 = 2u;
  34   const static uint8_t U3 = 3u;
  35   const static uint8_t U4 = 4u;
  36   const static uint8_t U0 = 0u;
  37   const static uint8_t UTF8_LENGTH[256] = {
  38     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
  39     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
  40     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
  41     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
  42     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
  43     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
  44     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
  45     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
  46     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, // lead byte = 0xxx xxxx (U+0000 - U+007F + some extended ascii characters)
  47     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
  48     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
  49     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
  50     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
  51     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
  52     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
  53     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
  54     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
  55     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
  56     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
  57     U1, U1,                                 //
  58
  59     U2, U2, U2, U2, U2, U2, U2, U2, U2, U2, //
  60     U2, U2, U2, U2, U2, U2, U2, U2, U2, U2, // lead byte = 110x xxxx (U+0080 - U+07FF)
  61     U2, U2, U2, U2, U2, U2, U2, U2, U2, U2, //
  62     U2, U2,                                 //
  63
  64     U3, U3, U3, U3, U3, U3, U3, U3, U3, U3, // lead byte = 1110 xxxx (U+0800 - U+FFFF)
  65     U3, U3, U3, U3, U3, U3,                 //
  66
  67     U4, U4, U4, U4, U4, U4, U4, U4,         // lead byte = 1111 0xxx (U+10000 - U+1FFFFF)
  68
  69     U0, U0, U0, U0,                         // Non valid.
  70     U0, U0, U0, U0,                         // Non valid.
  71   };
  72
  73   const uint8_t CR = 0xd;
  74   const uint8_t LF = 0xa;
  75 } // namespace
  76
  77 uint8_t GetUtf8Length( uint8_t utf8LeadByte )
  78 {
  79   return UTF8_LENGTH[utf8LeadByte];
  80 }
  81
  82 uint32_t GetNumberOfUtf8Characters( const uint8_t* const utf8, uint32_t length )
  83 {
  84   uint32_t numberOfCharacters = 0u;
  85
  86   const uint8_t* begin = utf8;
  87   const uint8_t* end = utf8 + length;
  88
  89   for( ; begin < end ; begin += UTF8_LENGTH[*begin], ++numberOfCharacters );
  90
  91   return numberOfCharacters;
  92 }
  93
  94 uint32_t GetNumberOfUtf8Bytes( const uint32_t* const utf32, uint32_t numberOfCharacters )
  95 {
  96   uint32_t numberOfBytes = 0u;
  97
  98   const uint32_t* begin = utf32;
  99   const uint32_t* end = utf32 + numberOfCharacters;
 100
 101   for( ; begin < end; ++begin )
 102   {
 103     const uint32_t code = *begin;
 104
 105     if( code < 0x80u )
 106     {
 107       ++numberOfBytes;
 108     }
 109     else if( code < 0x800u )
 110     {
 111       numberOfBytes += U2;
 112     }
 113     else if( code < 0x10000u )
 114     {
 115       numberOfBytes += U3;
 116     }
 117     else if( code < 0x200000u )
 118     {
 119       numberOfBytes += U4;
 120     }
 121   }
 122
 123   return numberOfBytes;
 124 }
 125
 126 uint32_t Utf8ToUtf32( const uint8_t* const utf8, uint32_t length, uint32_t* utf32 )
 127 {
 128   uint32_t numberOfCharacters = 0u;
 129
 130   const uint8_t* begin = utf8;
 131   const uint8_t* end = utf8 + length;
 132
 133   for( ; begin < end ; ++numberOfCharacters )
 134   {
 135     const uint8_t leadByte = *begin;
 136
 137     switch( UTF8_LENGTH[leadByte] )
 138     {
 139       case U1:
 140       {
 141         if( CR == leadByte )
 142         {
 143           // Replace CR+LF or CR by LF
 144           *utf32++ = LF;
 145
 146           // Look ahead if the next one is a LF.
 147           ++begin;
 148           if( begin < end )
 149           {
 150             if( LF == *begin )
 151             {
 152               ++begin;
 153             }
 154           }
 155         }
 156         else
 157         {
 158           *utf32++ = leadByte;
 159           begin++;
 160         }
 161         break;
 162       }
 163
 164       case U2:
 165       {
 166         uint32_t& code = *utf32++;
 167         code = leadByte & 0x1fu;
 168         begin++;
 169         code <<= 6u;
 170         code |= *begin++ & 0x3fu;
 171         break;
 172       }
 173
 174       case U3:
 175       {
 176         uint32_t& code = *utf32++;
 177         code = leadByte & 0x0fu;
 178         begin++;
 179         code <<= 6u;
 180         code |= *begin++ & 0x3fu;
 181         code <<= 6u;
 182         code |= *begin++ & 0x3fu;
 183         break;
 184       }
 185
 186       case U4:
 187       {
 188         uint32_t& code = *utf32++;
 189         code = leadByte & 0x07u;
 190         begin++;
 191         code <<= 6u;
 192         code |= *begin++ & 0x3fu;
 193         code <<= 6u;
 194         code |= *begin++ & 0x3fu;
 195         code <<= 6u;
 196         code |= *begin++ & 0x3fu;
 197         break;
 198       }
 199     }
 200   }
 201
 202   return numberOfCharacters;
 203 }
 204
 205 uint32_t Utf32ToUtf8( const uint32_t* const utf32, uint32_t numberOfCharacters, uint8_t* utf8 )
 206 {
 207   const uint32_t* begin = utf32;
 208   const uint32_t* end = utf32 + numberOfCharacters;
 209
 210   uint8_t* utf8Begin = utf8;
 211
 212   for( ; begin < end; ++begin )
 213   {
 214     const uint32_t code = *begin;
 215
 216     if( code < 0x80u )
 217     {
 218       *utf8++ = code;
 219     }
 220     else if( code < 0x800u )
 221     {
 222       *utf8++ = static_cast<uint8_t>(   code >> 6u )           | 0xc0u; // lead byte for 2 byte sequence
 223       *utf8++ = static_cast<uint8_t>(   code          & 0x3f ) | 0x80u; // continuation byte
 224     }
 225     else if( code < 0x10000u )
 226     {
 227       *utf8++ = static_cast<uint8_t>(   code >> 12u )          | 0xe0u; // lead byte for 2 byte sequence
 228       *utf8++ = static_cast<uint8_t>( ( code >> 6u )  & 0x3f ) | 0x80u; // continuation byte
 229       *utf8++ = static_cast<uint8_t>(   code          & 0x3f ) | 0x80u; // continuation byte
 230     }
 231     else if( code < 0x200000u )
 232     {
 233       *utf8++ = static_cast<uint8_t>(   code >> 18u )          | 0xf0u; // lead byte for 2 byte sequence
 234       *utf8++ = static_cast<uint8_t>( ( code >> 12u ) & 0x3f ) | 0x80u; // continuation byte
 235       *utf8++ = static_cast<uint8_t>( ( code >> 6u )  & 0x3f ) | 0x80u; // continuation byte
 236       *utf8++ = static_cast<uint8_t>(   code          & 0x3f ) | 0x80u; // continuation byte
 237     }
 238   }
 239
 240   return utf8 - utf8Begin;
 241 }
 242
 243 void Utf32ToUtf8( const uint32_t* const utf32, uint32_t numberOfCharacters, std::string& utf8 )
 244 {
 245   utf8.clear();
 246
 247   uint32_t numberOfBytes = GetNumberOfUtf8Bytes( &utf32[0], numberOfCharacters );
 248   utf8.resize( numberOfBytes );
 249
 250   // This is a bit horrible but std::string returns a (signed) char*
 251   Utf32ToUtf8( utf32, numberOfCharacters, reinterpret_cast<uint8_t*>(&utf8[0]) );
 252 }
 253
 254 } // namespace Text
 255
 256 } // namespace Toolkit
 257
 258 } // namespace Dali