• unicode 和 utf-8 的关系和解释


    首先一个字节就是8个晶体管同时发出的信号集,

    unicode就是一套编码,所有的字符都用2个字节表示,不像gbk和gb2312既保持了以前的ansi/ascii的字符单个字节编码,有发明了两个字节保存中文和特殊字符编码,

    uTF-8就是为了传输unicode, 

    UTF-8是这样做的:

    1. 单字节的字符,字节的第一位设为0,对于英语文本,UTF-8码只占用一个字节,和ASCII码完全相同;
    2. n个字节的字符(n>1),第一个字节的前n位设为1,第n+1位设为0,后面字节的前两位都设为10,这n个字节的其余空位填充该字符unicode码,高位用0补足。
    这样就形成了如下的UTF-8标记位:

    0xxxxxxx
    110xxxxx 10xxxxxx
    1110xxxx 10xxxxxx 10xxxxxx
    11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
    111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
    1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

    作者:uuspider
    链接:http://www.zhihu.com/question/23374078/answer/65352538
    来源:知乎
    著作权归作者所有,转载请联系作者获得授权。
    作者:uuspider
    链接:http://www.zhihu.com/question/23374078/answer/65352538
    来源:知乎
    著作权归作者所有,转载请联系作者获得授权。      
  • 相关阅读:
    UVA
    HDU
    manacher求最长回文子串算法
    next数组求最小循环节
    HUST
    廖雪峰Java1-4数组操作-2数组排序
    廖雪峰Java1-4数组操作-1遍历数组
    廖雪峰Java1-3流程控制-9break、continue
    廖雪峰Java-3流程控制-7for循环
    廖雪峰Java1-3流程控制-6 do-while循环
  • 原文地址:https://www.cnblogs.com/qinqiu/p/5888612.html
Copyright © 2020-2023  润新知