• python字符编码


    1. 使用Unicode 处理国际化文本

    任务:需要处理包含非ASCII字符的字符串

    解决

    >>> german_ae = unicode('xc3\xa4','utf8')
    '''german_ae 是一个unicode字符串 根据指定的utf-8编码方式,通过解析单字节字符串xc3\xa4 创建了一个Unicode字符串 
    然后就可以像处理其他字符串一样处理unicode字符串'''
    >>>sentence = 'This is a ' + german_ae
    >>>sentence2 = "Easy!"
    >>>para = ". ",join([sentence,sentence2])
    #sentence 和 para  都是unicode字符串 因为其他字符串和unicode字符串之间的操作总会产生unicode字符串

    为了避免UnicodeDecodeError异常 ,开发者总结了两条规律

    • 无论何时,当你的程序接收到一个来自外部(网络、文件、或者用户输入)的文本时,应当立即创建一个unicode对象,找出最合适的编码,如查看HTTP头,或者寻找一个合适的转化方法来确定所用过的编码方式
    • 无论何时,当你的程序需要向外部(网络、文件、或者用户输入)发送文本数据时,应当探查正确编码,并用那种编码将你的文本转化成字节串(负责 Python会尝试把Unicode转化成ASCII字节串)

    2 在Unicode和普通字符串之间转换

    unicodestring = u'Hello world'
    #将Unicode转化为普通Python字符串:"encode"
    utf8string = unicodestring.encode("utf-8")
    ascstring = unicodestring.encode("ascii")
    #将普通Python字符串转化为Unicode:"decode"
    plainstring = unicode(utf8string,"utf-8")
    plainstring1 = unicode(ascstring,"ascii")

     

  • 相关阅读:
    linux环境下的时间编程
    golang1.13中重要的新特新
    vs2019+cmake实现Linux远程开发
    现代c++与模板元编程
    一个commit引发的思考
    golang中判断两个slice是否相等
    c++性能测试工具:计算时间复杂度
    c++性能测试工具:google benchmark入门(二)
    使用vs2019进行Linux远程开发
    智能指针和二叉树(3):图解查找和删除
  • 原文地址:https://www.cnblogs.com/cacique/p/2617409.html
Copyright © 2020-2023  润新知