• 汉字统计


     1 #include <stdio.h>
     2 
     3 int isChinese(int ch )
     4 {
     5     return  ch & 0x80;
     6 }
     7 
     8 int main()
     9 {
    10     char ch[1000]="WaHaHa! WaHaHa! 今年过节不说话要说只说普通话WaHaHa! WaHaHa!";
    11     int i=0, count=0;
    12     
    13     for(i=0; i < 1000; i++)
    14     {
    15     
    16         if(isChinese(ch[i]))
    17             count ++;
    18     }
    19     printf("%d
    ", count/2);
    20     return 0;
    21 }

    通过位运算来判断,0x80为转义字符,也就是二进制的10000000 。ascii 字符占用一个字节(使用低7位),最高位为0,另外,汉字机内码在计算机的表达方式的描述是,使用二个字节,每个字节最高位一位为1。计算机中, 补码第一位是符号位, 1 表示为 负数, 所以 汉字机内码的每个字节表示的十进制数都是负数,结果要除以2,不要忘了。因为汉字占用两个字节。进行按位与运算后,是英文字符返回0,是中文汉字则返回128.还可以通过判断他的每一个字节是否小于零(因为最高位为符号位),小于0则是中文汉字,否则反。

    这说的是多字节编码,而且完全没考虑那些扩充符号标点,具体哪些是真正的汉字还是要靠区位码决定。unicode更不一样,而且unicode还分为UTF-8,UTF-16,UTF-32。UTF-8网络和linux上用得最多,UTF-16就是windows下的unicode,UTF-32是linux下的unicode,不过用得反而没UTF-8多。

       //GBK汉字内码范围(不包括A1xx~A9xx的标点符号英文字母特殊符号等)
       //区码  ,位码
       //81-A0 ,40-7E 80-FE
       //AA-AF ,40-7E 80-A0
       //B0-D6 ,40-7E 80-FE
       //D7    ,40-7E 80-F9
       //D8-F7 ,40-7E 80-FE
       //F8-FE ,40-7E 80-A0

    对电脑而言没有乱码,只有二进制字节;对人脑才有乱码。啊 GBK:0xB0 0xA1,Unicode-16 LE:0x4A 0x55,Unicode-16 BE:0x55 0x4A,UTF-8:0xE5 0x95 0x8A

  • 相关阅读:
    Stack
    js this理解
    js面向对象
    自执行函数
    原!struts安全漏洞,由2.3.37版本升级至2.5.22
    原!linux机器 配置自动scp脚本
    转!!记一次使用 Arthas 热更新线上代码
    mysql 修改大表字段,报错ERROR 1878 (HY000): Temporary file write failure. 用pt-online-schema-change
    转!!JAVA Future 模式与 Promise 模式
    转!!linux下详解shell中>/dev/null 2>&1
  • 原文地址:https://www.cnblogs.com/yuanqi/p/3500647.html
Copyright © 2020-2023  润新知