解决python在读取文件时的编码问题

一、问题

在我们进行编程的时候我们进行中文文件读取的时候往往会遇到很多编码的问题，容易出现下面的这个错误。

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc9 in position 0: invalid continuation byte

二、解决办法

通过查看文件的编码，比如用nodepad++这个文件编译器查看文件的编码格式，通过查看下面的文件可以看到，编码格式并不是我们熟悉的utf-8的编码。因此在我们进行编码的时候只需要指定编码的方式即可

代码

def read_data():
    file_path = file_dir + 'base.csv'
    # 通过nodepad++查看到这个文件的编码格式是GB2312
    x = pd.read_csv(file_path, encoding="GB2312")
    print(x)


read_data()

结果

三、参考

这篇博主的博文给了我提示，经过自己的尝试解决了这个问题，这也是解决编码问题的通用方法。

https://blog.csdn.net/wang7807564/article/details/78164855

相关阅读:
Spark使用总结与分享【转】
用实例讲解Spark Sreaming--转
hbase RowFilter如何根据rowkey查询以及实例实现代码 habase模糊查询【转】
Android OpenGL ES（十三）通用的矩阵变换指令 .
Android OpenGL ES（十二）:三维坐标系及坐标变换初步 .
Android OpenGL ES（十一）绘制一个20面体 .
Android OpenGL ES（十）绘制三角形Triangle .
Android OpenGL ES（九）绘制线段Line Segment .
Android OpenGL ES（八）绘制点Point ..
Android OpenGL ES .介绍

原文地址：https://www.cnblogs.com/future-dream/p/12340698.html