• Python字符编码转换Unicode和str


    参考链接1:https://blog.csdn.net/VictoriaW/article/details/75314737

    参考链接2:https://blog.csdn.net/sheldonwong/article/details/86684761
    Unicode和str

    ## str 我们平时写的用引号括起来的字符串都是str类型的。
    >>> x = '哈哈'
    >>> x
    'xb9xfexb9xfe'
    ### 根据上面的打印结果,可以知道str类型的x存的其实是二进制序列,而非字符串。为什么会出现这种情况呢?我们赋给x的明明是字符串。
    其实很简单,x经过了一次隐形的编码过程encode()。应该采用的是系统默认编码方案。 
    
    ## unicode 如果在引号的前面加上字符u,那么我们就得到一个unicode字符串:
    >>> x = u'哈哈'
    >>> x
    u'u54c8u54c8'
    ### unicode对象保存的是字符串本身,而非二进制序列。比如程序中的unicode字符串中包含两个U+54c8字符。
    
    ### 为了避免错误,在写入文件之前,应该用utf-8或者gbk编码方案对unicode字符串编码
    >>> x = u'哈哈'
    >>> x
    u'u54c8u54c8'
    >>> f = open('test.txt', 'w');
    >>> x = x.encode('utf-8') #unicode -> str
    >>>x
    'xe5x93x88xe5x93x88'
    >>> f.write(x)
    
    

    Unicode strings can be encoded in plain strings in a variety of ways, according to whichever encoding you choose:
    Unicode字符串可以用多种方式编码为普通字符串, 依照你所选择的编码(encoding):

       1 #将Unicode转换成普通的Python字符串:"编码(encode)"
       2 unicodestring = u"Hello world"
       3 utf8string = unicodestring.encode("utf-8")
       4 asciistring = unicodestring.encode("ascii")
       5 isostring = unicodestring.encode("ISO-8859-1")
       6 utf16string = unicodestring.encode("utf-16")
       7 
       8 
       9 #将普通的Python字符串转换成Unicode: "解码(decode)"
      10 plainstring1 = unicode(utf8string, "utf-8")
      11 plainstring2 = unicode(asciistring, "ascii")
      12 plainstring3 = unicode(isostring, "ISO-8859-1")
      13 plainstring4 = unicode(utf16string, "utf-16")
      14 
      15 assert plainstring1==plainstring2==plainstring3==plainstring4
    
    
  • 相关阅读:
    LeetCode-Path Sum I & II & III
    LeetCode-Unique Binary Search Trees I & II
    LeetCode-230. Kth Smallest Element in a BST
    LeetCode-98. Validate Binary Search Tree
    LeetCode-450. Delete Node in a BST
    LeetCode-108. Convert Sorted Array to Binary Search Tree
    LeetCode-129. Sum Root to Leaf Numbers
    视频中人体轮廓检测
    新型SVM
    Surveillance Monitering入门学习论文笔记
  • 原文地址:https://www.cnblogs.com/yes5144/p/11523516.html
Copyright © 2020-2023  润新知