• Python字符串和编码注意点


    1、ASCII、Unicode 、UTF-8、GB2312编码区分

    ASCII码1个字节(byte)8bits,可表示的字符太少,汉字就无法表示,因此使用了GB2312字符集,因为世界范围内有许多不同的字符集,为了包含各字符集且保证各字符集的表示不冲突,就有了Unicode字符集把所有的字符全都统一到一套编码里,但是Unicode编码通常都是2个字节,少数生僻字符需要用到4个字节,但是某些英文字符其实只需要一个字节来表示,这样使用Unicode传输或者存储就会造成极大的浪费,因此产生了UTF-8,属于可变长编码,将Unicode字符根据不同的数字大小编码成1-6个字节,英文字母编成1个字节,汉字一般为3个字节,生僻字编成4-6字节,可以节约空间和带宽,且UTF-8还可以兼容历史遗留的ASCII编码。

    2、网络传输或磁盘存储都是用bytes,字符串可以通过encode函数编码为指定的bytes,如'abc'.encode('utf-8'),反之可以使用decode函数进行解码,例如 b'abc'.decode('utf-8')

    3、len函数计算的是str的字符数以及bytes的字节数,单位不同,注意区分

    4、Python源码开头写上:# -*- coding: utf-8 -*-,表示按UTF-8编码读取,保证源码中的中文输出不会出现乱码。

    5、格式化输出与C语言类似,多个变量用括号打包,前面加%,如果需要显示%,则使用%%,如果有多个格式化输出,那么需要将后面的变量或者值用括号括起来

  • 相关阅读:
    HDU5195 线段树+拓扑
    Codeforces Round #328 (Div. 2)D. Super M 虚树直径
    HDU5489 LIS变形
    BZOJ 1787: [Ahoi2008]Meet 紧急集合 LCA
    Codeforces Round #330 (Div. 2)B. Pasha and Phone 容斥
    Codeforces Round #330 (Div. 2) D. Max and Bike 二分
    Codeforces Round #277 (Div. 2) E. LIS of Sequence DP
    Codeforces Round #277 (Div. 2) D. Valid Sets DP
    内存对齐
    mui列表跳转到详情页优化方案
  • 原文地址:https://www.cnblogs.com/vonkimi/p/6778803.html
Copyright © 2020-2023  润新知