• 关于字符编码的问题。


    字符串它是一个数据类型,除此之外,它还是一个编码的问题。
    因为计算机它只能处理数字,要想处理文本,就必须得把文本转换成数字,这样计算机才可以正常处理。
    大家都知道Ascii码,这个是外国人发明的,所以最早只有127的个字符被编码,如数字、字母以及一些特殊符号啥的。如果要处理中文,一个字节肯定是不够的,至少得要两个,有一些甚至要4个字节。 而且还不能和Ascii码冲突,所以中国人也制作了个编码叫GB2312。 但是,,,,,全国有那么多种的语言,如果每个国家都自己的编码的话,那如果一遍文章里面包含了各国语言,这样岂不就崩溃了吗? 这也就是有一些同学看见各种乱码的直接原因。所以,为了统一,Unicode也就出来了。乱码也就不会出现了。

    但是,,,  比如讲 Ascii编码一个A,它的十进制是65,二进制是01000001,

                         如果用Unicode,它的二进制就是00000000 01000001,虽然结果都是一样的,

    但是明显后者占得内存要大得多,多一倍不必要的存储空间。  

    所以。。。。。  为了减除这个缺点,UTF-8编码就出来了。

    UTF-8的原理: 把一个Unicode字符根据不同大小编码成1-6个字符,常用的英文字母被编成一个字节,汉字通常是3个字节,特殊的4-6个。  这样就明显降低了很多很多的资源。

  • 相关阅读:
    lamada基本语法
    idea 的全局搜索始终是上次的文本
    虚拟机中en33没有IP解决方法
    IDEA设置
    mysql主从配置
    linux安装mysql5.7(rpm方式)
    Jenkins+maven+github自动部署项目
    linux安装Jenkins
    linux wget安装jdk
    关于spring框架JdbcTemplate中的命令模式
  • 原文地址:https://www.cnblogs.com/R-Hacker/p/9023796.html
Copyright © 2020-2023  润新知