C语言处理中文 - 大萝卜的专栏 - 博客频道 - CSDN.NET
GBK 采用双字节表示,总体编码范围为 8140-FEFE,首字节在 81-FE 之间,尾字节在 40-FE 之间,剔除 xx7F 一条线。总计 23940 个码位,共收入 21886 个汉字和图形符号,其中汉字(包括部首和构件)21003 个,图形符号 883 个。 这是一个显示中西文混合字符串的参考程序。通过上面的分析可以得出,如果是汉字,则首字节在81-FE 之间,其最高位为1,所以补码小于0,应连续显示两个字节;如果是西文字符,则首字节在00-7F之间,其最高位为0,补码大于等于0,只需显示一个字节。
- #include <stdio.h>
- char *str="汉字里有english也能正确显示";
- int main() {
- int i = 0;
- while (str[i] != '/0') {
- if(str[i] < 0) {
- printf("%c%c/n", str[i], str[i+1]);
- i++;
- }
- else {
- printf("%c/n", str[i]);
- }
- i++;
- }
- return 0;
- }