character-set-conversion.cpp

   1 /*
   2  * Copyright (c) 2015 Samsung Electronics Co., Ltd.
   3  *
   4  * Licensed under the Apache License, Version 2.0 (the "License");
   5  * you may not use this file except in compliance with the License.
   6  * You may obtain a copy of the License at
   7  *
   8  * http://www.apache.org/licenses/LICENSE-2.0
   9  *
  10  * Unless required by applicable law or agreed to in writing, software
  11  * distributed under the License is distributed on an "AS IS" BASIS,
  12  * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
  13  * See the License for the specific language governing permissions and
  14  * limitations under the License.
  15  *
  16  */
  17
  18 // FILE HEADER
  19 #include <dali-toolkit/internal/text/character-set-conversion.h>
  20
  21 namespace Dali
  22 {
  23
  24 namespace Toolkit
  25 {
  26
  27 namespace
  28 {
  29   const static uint8_t U1 = 1u;
  30   const static uint8_t U2 = 2u;
  31   const static uint8_t U3 = 3u;
  32   const static uint8_t U4 = 4u;
  33   const static uint8_t U0 = 0u;
  34   const static uint8_t UTF8_LENGTH[256] = {
  35     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
  36     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
  37     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
  38     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
  39     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
  40     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
  41     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
  42     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
  43     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, // lead byte = 0xxx xxxx (U+0000 - U+007F + some extended ascii characters)
  44     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
  45     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
  46     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
  47     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
  48     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
  49     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
  50     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
  51     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
  52     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
  53     U1, U1, U1, U1, U1, U1, U1, U1, U1, U1, //
  54     U1, U1,                                 //
  55
  56     U2, U2, U2, U2, U2, U2, U2, U2, U2, U2, //
  57     U2, U2, U2, U2, U2, U2, U2, U2, U2, U2, // lead byte = 110x xxxx (U+0080 - U+07FF)
  58     U2, U2, U2, U2, U2, U2, U2, U2, U2, U2, //
  59     U2, U2,                                 //
  60
  61     U3, U3, U3, U3, U3, U3, U3, U3, U3, U3, // lead byte = 1110 xxxx (U+0800 - U+FFFF)
  62     U3, U3, U3, U3, U3, U3,                 //
  63
  64     U4, U4, U4, U4, U4, U4, U4, U4,         // lead byte = 1111 0xxx (U+10000 - U+1FFFFF)
  65
  66     U0, U0, U0, U0,                         // Non valid.
  67     U0, U0, U0, U0,                         // Non valid.
  68   };
  69 } // namespace
  70
  71 uint32_t GetNumberOfUtf8Characters( const uint8_t* const utf8, uint32_t length )
  72 {
  73   uint32_t numberOfCharacters = 0u;
  74
  75   const uint8_t* begin = utf8;
  76   const uint8_t* end = utf8 + length;
  77
  78   for( ; begin < end ; begin += UTF8_LENGTH[*begin], ++numberOfCharacters );
  79
  80   return numberOfCharacters;
  81 }
  82
  83 uint32_t GetNumberOfUtf8Bytes( const uint32_t* const utf32, uint32_t numberOfCharacters )
  84 {
  85   uint32_t numberOfBytes = 0u;
  86
  87   const uint32_t* begin = utf32;
  88   const uint32_t* end = utf32 + numberOfCharacters;
  89
  90   for( ; begin < end; ++begin )
  91   {
  92     const uint32_t code = *begin;
  93
  94     if( code < 0x80u )
  95     {
  96       ++numberOfBytes;
  97     }
  98     else if( code < 0x800u )
  99     {
 100       numberOfBytes += U2;
 101     }
 102     else if( code < 0x10000u )
 103     {
 104       numberOfBytes += U3;
 105     }
 106     else if( code < 0x200000u )
 107     {
 108       numberOfBytes += U4;
 109     }
 110   }
 111
 112   return numberOfBytes;
 113 }
 114
 115 uint32_t Utf8ToUtf32( const uint8_t* const utf8, uint32_t length, uint32_t* utf32 )
 116 {
 117   uint32_t numberOfCharacters = 0u;
 118
 119   const uint8_t* begin = utf8;
 120   const uint8_t* end = utf8 + length;
 121
 122   for( ; begin < end ; ++numberOfCharacters )
 123   {
 124     const uint8_t leadByte = *begin;
 125
 126     switch( UTF8_LENGTH[leadByte] )
 127     {
 128       case U1:
 129       {
 130         *utf32++ = leadByte;
 131         begin++;
 132         break;
 133       }
 134
 135       case U2:
 136       {
 137         uint32_t& code = *utf32++;
 138         code = leadByte & 0x1fu;
 139         begin++;
 140         code <<= 6u;
 141         code |= *begin++ & 0x3fu;
 142         break;
 143       }
 144
 145       case U3:
 146       {
 147         uint32_t& code = *utf32++;
 148         code = leadByte & 0x0fu;
 149         begin++;
 150         code <<= 6u;
 151         code |= *begin++ & 0x3fu;
 152         code <<= 6u;
 153         code |= *begin++ & 0x3fu;
 154         break;
 155       }
 156
 157       case U4:
 158       {
 159         uint32_t& code = *utf32++;
 160         code = leadByte & 0x07u;
 161         begin++;
 162         code <<= 6u;
 163         code |= *begin++ & 0x3fu;
 164         code <<= 6u;
 165         code |= *begin++ & 0x3fu;
 166         code <<= 6u;
 167         code |= *begin++ & 0x3fu;
 168         break;
 169       }
 170     }
 171   }
 172
 173   return numberOfCharacters;
 174 }
 175
 176 uint32_t Utf32ToUtf8( const uint32_t* const utf32, uint32_t numberOfCharacters, uint8_t* utf8 )
 177 {
 178   const uint32_t* begin = utf32;
 179   const uint32_t* end = utf32 + numberOfCharacters;
 180
 181   uint8_t* utf8Begin = utf8;
 182
 183   for( ; begin < end; ++begin )
 184   {
 185     const uint32_t code = *begin;
 186
 187     if( code < 0x80u )
 188     {
 189       *utf8++ = code;
 190     }
 191     else if( code < 0x800u )
 192     {
 193       *utf8++ = static_cast<uint8_t>(   code >> 6u )           | 0xc0u; // lead byte for 2 byte sequence
 194       *utf8++ = static_cast<uint8_t>(   code          & 0x3f ) | 0x80u; // continuation byte
 195     }
 196     else if( code < 0x10000u )
 197     {
 198       *utf8++ = static_cast<uint8_t>(   code >> 12u )          | 0xe0u; // lead byte for 2 byte sequence
 199       *utf8++ = static_cast<uint8_t>( ( code >> 6u )  & 0x3f ) | 0x80u; // continuation byte
 200       *utf8++ = static_cast<uint8_t>(   code          & 0x3f ) | 0x80u; // continuation byte
 201     }
 202     else if( code < 0x200000u )
 203     {
 204       *utf8++ = static_cast<uint8_t>(   code >> 18u )          | 0xf0u; // lead byte for 2 byte sequence
 205       *utf8++ = static_cast<uint8_t>( ( code >> 12u ) & 0x3f ) | 0x80u; // continuation byte
 206       *utf8++ = static_cast<uint8_t>( ( code >> 6u )  & 0x3f ) | 0x80u; // continuation byte
 207       *utf8++ = static_cast<uint8_t>(   code          & 0x3f ) | 0x80u; // continuation byte
 208     }
 209   }
 210
 211   return utf8 - utf8Begin;
 212 }
 213
 214 void Utf32ToUtf8( const uint32_t* const utf32, uint32_t numberOfCharacters, std::string& utf8 )
 215 {
 216   utf8.clear();
 217
 218   uint32_t numberOfBytes = GetNumberOfUtf8Bytes( &utf32[0], numberOfCharacters );
 219   utf8.resize( numberOfBytes );
 220
 221   // This is a bit horrible but std::string returns a (signed) char*
 222   Utf32ToUtf8( utf32, numberOfCharacters, reinterpret_cast<uint8_t*>(&utf8[0]) );
 223 }
 224
 225 } // namespace Toolkit
 226
 227 } // namespace Dali