嵌入式软件国际化(多语言) 点阵字库选择分析
多字节字符集与unicode
- 多字节编码最大的问题在于每一个语种的字符集编码不兼容。
- unicode的好处在于将所有人类语种字符都有了统一的编码。现在世界上语言基本都包含在了基本多文种平面0上(BMP0)即编号只占用2个字节。
字符集选择相关问题分析
方案1.不使用unicode 使用所谓的ANSI
- 如果中文版本就是使用ANSI(中文标准即GB2312),那么对于继续支持英文、德文是没有问题的。而对于俄文、日文却支持的不够全面,毕竟这是中文的标准。
- 每一种语言包资源文件的编码格式不相同。虽然都叫ANSI,但是每一种语言的标准是不同的。只有这样才能从字库中解析出正确的字符。
- 多支持一个语种就需要多,烧写一种相互不兼容的字库(毕竟一个语种和另外一个语种的ANSI是不一样的),相应的字符解析部分代码也需要许多条件判断进行不同的算法分析,以显示出正确语种的字符。
方案2.使用unicode
- 首先语言包资源文件的格式都可以是一样的编码方式(UTF-8(BOM)、UTF-8、UCS-2 Big endian、UCS-2 Little endian)。
- 只需要烧写同一中字库就OK了,一劳永逸,如果空间不够大,可以至少写里面的某些片段。
- 对于同一种编码格式(以UTF-8为例),需要写两个转换算法,即UTF-8编码到Unicode编号和Unicode编号到UTF-8。
- 如果使用UTF-8编码,由于其对于每一个字符编码所占用的空间是不定的(1字节-3字节),所以有可能导致源代码中的字符串空间越界,毕竟原来是固定每个汉字都是占用两个字节。
- 如果使用UCS-2编码,那么每一个字符都将用2个字节表示,字符的编号和文档中存储的字符编码是相等的。那么对于编号比较小的字符字符ASCCI码,就会在编码高位中会出现0x00这样的数字,而0x00又是一个字符串的结束标志,所以如果使用UCS-2编码就需要通过代码来区分两种情况了。
结论
- 对于支持语言种类比较少的,有明确目标支持某些语言,可以选择第一种方案。比较平滑。
- 对于国际化进程比较深入的,可以选择第二种方案,虽然前期比较困难,但是后期会很顺。
相关代码共享:
1.UTF-8到unicode的转换:
以下为将UTF-8转为Unicode的C语言代码,
这部分代码经过测试,能够正确执行,没有发现明显问题:
/*
* Function Name : utf82unicode
* Create Date : 2015/07/23-2015/07/24
* Author : Houlw-Houlw
* Description : 将一个UTF-8编码序列,转换为Unicode编号.
* Param : utf8 -- 输入参数,表示UTF-8编码字符串.
* pcount -- 输出参数,表示这个字符表示为UTF-8需要多少字节.
* Return Code : Unicode 字符编号;如果大于0xFFFFFF00,表示处理出错.
*/
INT32U utf82unicode(INT8U *utf8,INT8U *pcount)
{
INT32U unicode;
INT8U countbyte,i;
unicode = 0xFFFFFFFF;
countbyte = 0;
/* Analysis of the first byte */
i=0;
if(utf8[0]<0x80) /* 0000 ~ 00 007F 0XXX XXXX */
{
countbyte = 1;
unicode = utf8[i];
}else if((utf8[0]&0xE0) == 0xC0) /* 0080 ~ 00 07FF 110X XXXX 10XX XXXX */
{
countbyte = 2;
unicode = (utf8[i]&(~0xE0));
}else if((utf8[0]&0xF0) == 0xE0) /* 0800 ~ 00 FFFF 1110 XXXX 10XX ... */
{
countbyte = 3;
unicode = (utf8[i]&(~0xF0));
}else if((utf8[0]&0xF8) == 0xF0) /* 1 0000 ~ 1F FFFF 1111 0XXX 10XX ... */
{
countbyte = 4;
unicode = (utf8[i]&(~0xF8));
}else if((utf8[0]&0xFC) == 0xF8) /* 2 0000 ~ 3F FFFF 1111 10XX 10XX ... */
{
countbyte = 5;
unicode = (utf8[i]&(~0xFC));
}else if((utf8[0]&0xFE) == 0xFC) /* 4 0000 ~ 7F FFFF 1111 110X 10XX ... */
{
countbyte = 6;
unicode = (utf8[i]&(~0xFE));
}
if(pcount != NULL)
{
*pcount = countbyte;
}
/* Analysis of remaining bytes */
for(i++;i<countbyte;i++)
{
if((utf8[i]&0xC0) == 0x80)
{
unicode <<= 6;
unicode |= (utf8[i]&(~0xC0));
}else{ /* Error Code */
unicode = 0xFFFFFF00|(countbyte<<4)|i;
break;
}
}
return unicode;
}
作者: