• 关于Python2字符编码的体会


    对于Python的字符编码问题也懵了很久,最近做爬虫多次遇到网页转码的问题,干脆彻底解决掉!Just Do it!

    1.两种类型str与unicode

    str和unicode都是basestring的子类。严格意义上说,str其实是字节串,它是unicode经过编码后的字节组成的序列。对 UTF-8编码的str'汉'使用len()函数时,结果是3,因为实际上,UTF-8编码的'汉' == 'xE6xB1x89'。

    unicode才是真正意义上的字符串,对字节串str使用正确的字符编码进行解码后获得,并且len(u'汉') == 1。

    也就是说,str里面是以字节(8位)为单位,一个字符在str里面如何储存取决于其编码方式,从这个意义上讲,str类似于C中的char数组,而unicode类型类似于C++中的string,至于里面具体是如何存储的,可以当做黑盒。

    测试一下:

     

    从上面可以看出,print函数输出字符串时,该字符串若有中文,最好用unicode类型。

    另外,python中字符串常量的类型为str,前面加u,则类型为unicode。

    2.源码编码,外部编码

    源码编码

    源码编码指的是python脚本源码的编码方式,

    源代码文件中,如果有用到非ASCII字符,则需要在文件头部进行字符编码的声明,如下:

    #encoding:utf8
    

     声明的编码必须与文件实际保存时用的编码一致,否则很大几率会出现代码解析异常。现在的IDE一般会自动处理这种情况,改变声明后同时换成声明的编码保存。

    这点主要体现在源码中出现了中文字符串常量,则常量的编码方式与上方的定义编码相同(也与文件的保存编码相同)。

    例1

    输出:

    例2:

    输出:

    很直观,当更改了上方的编码后,str内部编码结果也被改变了。

    外部编码

    外部编码是指当读取文件,获取网页时所获得的str对象其编码方式,比如读取的网页编码方式可能是gbk,读取的文件文本可能是以utf-8方式编码。

    4.decode与encode

    decode是将str以何种解码为unicode类型;encode是将unicode编码为何种类型str。

    decode与encode是str与unicode两种类型间转换的桥梁。

    举例如下:

    从上图可以看出,python命令界面是以utf-8为默认编码方式,即常量'你好'是以utf-8编码的str对象。

    一般而言,

    从外部读入str,用decode进行转换unicode类型;

    保存至外部文件,将unicode用encode进行编码。

    4.默认编码

    python2.x中在处理中文时,大多数出现错误的原因所在:python的默认编码,defaultencoding是ascii,看这个例子:

    # -*- coding: utf-8 -*-
    s = "人生苦短"
    s.encode('gbk')
    

    上面的代码会报错,错误信息:UnicodeDecodeError: ‘ascii’ codec can’t decode byte ……

    因为你没有指定defaultencoding,所以它其实在做这样的事情:

    # -*- coding: utf-8 -*-
    s = "人生苦短"
    s.decode('ascii').encode('gbk')
    

     设置defaultencoding的代码如下:

    reload(sys)
    sys.setdefaultencoding('utf-8')
    

     如果你在python中进行编码和解码的时候,不指定编码方式,那么python就会使用defaultencoding。

    比如上一节例子中将str编码为另一种格式,就会使用defaultencoding。

    s.encode("utf-8") 等价于 s.decode(defaultencoding).encode("utf-8")
    

     再比如你使用str创建unicode对象时,如果不说明这个str的编码格式,那么程序也会使用defaultencoding。

    u = unicode("人生苦短") 等价于 u = unicode("人生苦短",defaultencoding)
    

     默认的defaultcoding:ascii是许多错误的原因,所以早早的设置defaultencoding是一个好习惯。

    5.总结

    其实str与unicode应该说是完全不同的两种类型,str作为默认字符串的类型,也是读入外部字符串的默认类型,内部是以字节为单位,类似于C的的char[],而unicode类似于C++中的string类型,是一个类,其内部如何存储,我们并不关心,只需要会调用其接口即可。

    尽管这种理解可能不到位,但实际应用应该还是够用...

  • 相关阅读:
    异或运算的运用
    HDU1251(统计难题)
    待解决题目
    tarjan算法模板
    FZU1465
    边双联通分量(构造边双联通图)
    UVa 12558
    codeforce Error Correct System
    codeforce The Art of Dealing with ATM
    ~0u >> 1
  • 原文地址:https://www.cnblogs.com/Rainlee007/p/5842157.html
Copyright © 2020-2023  润新知