b75219acd02d889eb6269c95d9580c00ff3a73eb
[platform/upstream/aspell.git] / manual / aspell.html / Unsupported.html
1 <html lang="en">
2 <head>
3 <title>Unsupported - GNU Aspell 0.60.6.1</title>
4 <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
5 <meta name="description" content="Aspell 0.60.6.1 spell checker user's manual.">
6 <meta name="generator" content="makeinfo 4.8">
7 <link title="Top" rel="start" href="index.html#Top">
8 <link rel="up" href="Languages-Which-Aspell-can-Support.html#Languages-Which-Aspell-can-Support" title="Languages Which Aspell can Support">
9 <link rel="prev" href="Supported.html#Supported" title="Supported">
10 <link rel="next" href="Multiple-Scripts.html#Multiple-Scripts" title="Multiple Scripts">
11 <link href="http://www.gnu.org/software/texinfo/" rel="generator-home" title="Texinfo Homepage">
12 <!--
13 This is the user's manual for Aspell
14
15 GNU Aspell is a spell checker designed to eventually replace Ispell.
16 It can either be used as a library or as an independent spell checker.
17
18 Copyright (C) 2000--2011 Kevin Atkinson.
19
20      Permission is granted to copy, distribute and/or modify this
21      document under the terms of the GNU Free Documentation License,
22      Version 1.1 or any later version published by the Free Software
23      Foundation; with no Invariant Sections, no Front-Cover Texts and
24      no Back-Cover Texts.  A copy of the license is included in the
25      section entitled "GNU Free Documentation License".
26    -->
27 <meta http-equiv="Content-Style-Type" content="text/css">
28 <style type="text/css"><!--
29   pre.display { font-family:inherit }
30   pre.format  { font-family:inherit }
31   pre.smalldisplay { font-family:inherit; font-size:smaller }
32   pre.smallformat  { font-family:inherit; font-size:smaller }
33   pre.smallexample { font-size:smaller }
34   pre.smalllisp    { font-size:smaller }
35   span.sc    { font-variant:small-caps }
36   span.roman { font-family:serif; font-weight:normal; } 
37   span.sansserif { font-family:sans-serif; font-weight:normal; } 
38 --></style>
39 </head>
40 <body>
41 <div class="node">
42 <p>
43 <a name="Unsupported"></a>
44 Next:&nbsp;<a rel="next" accesskey="n" href="Multiple-Scripts.html#Multiple-Scripts">Multiple Scripts</a>,
45 Previous:&nbsp;<a rel="previous" accesskey="p" href="Supported.html#Supported">Supported</a>,
46 Up:&nbsp;<a rel="up" accesskey="u" href="Languages-Which-Aspell-can-Support.html#Languages-Which-Aspell-can-Support">Languages Which Aspell can Support</a>
47 <hr>
48 </div>
49
50 <h3 class="appendixsec">B.2 Unsupported</h3>
51
52 <p>These languages, when written in the given script, are currently
53 unsupported by Aspell for one reason or another.
54
55    <p><table summary=""><tr align="left"><td valign="top"><b>Code</b> </td><td valign="top"><b>Language Name</b> </td><td valign="top"><b>Script</b>
56 <br></td></tr><tr align="left"><td valign="top">ja </td><td valign="top">Japanese </td><td valign="top">Japanese
57 <br></td></tr><tr align="left"><td valign="top">km </td><td valign="top">Khmer </td><td valign="top">Khmer
58 <br></td></tr><tr align="left"><td valign="top">ko </td><td valign="top">Korean </td><td valign="top">Han, Hangul
59 <br></td></tr><tr align="left"><td valign="top">lo </td><td valign="top">Lao </td><td valign="top">Lao
60 <br></td></tr><tr align="left"><td valign="top">th </td><td valign="top">Thai </td><td valign="top">Thai
61 <br></td></tr><tr align="left"><td valign="top">zh </td><td valign="top">Chinese </td><td valign="top">Han
62
63    <br></td></tr></table>
64
65 <h4 class="appendixsubsec">B.2.1 The Thai, Khmer, and Lao Scripts</h4>
66
67 <p>The Thai, Khmer, and Lao scripts presents a different problem for
68 Aspell.  The problem is not that there are more than 210 unique symbols,
69 but that there are no spaces between words.  This means that there is no
70 easy way to split a sentence into individual words.  However, it is
71 still possible to spell check these scripts, it is just a lot more
72 difficult.  I will be happy to work with someone who is interested in
73 adding Thai, Khmer, or Lao support to Aspell, but it is not likely
74 something I will do on my own in the foreseeable future.
75
76 <h4 class="appendixsubsec">B.2.2 Languages which use H&agrave;nzi Characters</h4>
77
78 <p>H&agrave;nzi Characters are used to write Chinese, Japanese, Korean, and were
79 once used to write Vietnamese.  Each h&agrave;nzi character represents a
80 syllable of a spoken word and also has a meaning.  Since there are
81 around 3,000 of them in common usage it is unlikely that Aspell will
82 ever be able to support spell checking languages written using h&agrave;nzi
83 until full Unicode support is implemented.  However, I am not even sure
84 if these languages need spell checking since h&agrave;nzi characters are
85 generally not entered in directly.  Furthermore even if Aspell could
86 spell check h&agrave;nzi the existing suggestion strategy will not work well
87 at all, and thus a completely new strategy will need to be developed. 
88 However, if it is the case that h&agrave;nzi needs to be spell checked and
89 you know something about the issues involved please fell free to contact
90 me.
91
92 <h4 class="appendixsubsec">B.2.3 Japanese</h4>
93
94 <p>Modern Japanese is written in a mixture of <dfn>hiragana</dfn>,
95 <dfn>katakana</dfn>, <dfn>kanji</dfn>, and sometimes <dfn>romaji</dfn>.  <dfn>Hiragana</dfn>
96 and <dfn>katakana</dfn> are both syllabaries unique to Japan, <dfn>kanji</dfn> is
97 a modified form of h&agrave;nzi, and <dfn>romaji</dfn> uses the Latin alphabet. 
98 With some work, Aspell should be able to check the non-kanji part of
99 Japanese text.  However, based on my limited understanding of Japanese
100 hiragana is often used at the end of kanji.  Thus if Aspell was to
101 simply separate out the hiragana from kanji it would end up with a lot
102 of word endings which are not proper words and will thus be flagged as
103 misspellings.  However, this can be fairly easily rectified as text is
104 tokenized into words before it is converted into Aspell's internal
105 encoding.  In fact, some Japanese text is written in entirely in one
106 script.  For example books for children and foreigners are sometimes
107 written entirely in hiragana.  Thus, Aspell, in its current state, could
108 prove at least somewhat useful for spell checking Japanese.
109
110 <h4 class="appendixsubsec">B.2.4 Hangul</h4>
111
112 <p>Korean is generally written in hangul or a mixture of han and hangul.  In
113 Hangul letters individual letters, known as jamo, are grouped together
114 in syllable blocks.  Unicode allows Hangul to be stored in one of three
115 ways, (A) Individual jamo letters (Hangul Compatibility Jamo, U+3130 -
116 U+318F), (D) decomposed jamo (Hangul Jamo, U+1100 - U+11FF), and (C)
117 precoposed sylable blocks (Hangul Syllables, U+AC00 - U+D7AF).  In order
118 for Aspell to work with Hangul it needs to be form A.  Unfortunately the
119 existing Normalization code in Aspell will not be able to adequately
120 deal with converting Hangul from form D and C to form A and back again. 
121 However, once this code is written, Aspell should be able to spell check
122 Hangul without any problem.
123
124    </body></html>
125