一、问题
在我们进行编程的时候我们进行中文文件读取的时候往往会遇到很多编码的问题,容易出现下面的这个错误。
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc9 in position 0: invalid continuation byte
二、解决办法
通过查看文件的编码,比如用nodepad++这个文件编译器查看文件的编码格式,通过查看下面的文件可以看到,编码格式并不是我们熟悉的utf-8的编码。因此在我们进行编码的时候只需要指定编码的方式即可
代码
def read_data():
file_path = file_dir + 'base.csv'
# 通过nodepad++查看到这个文件的编码格式是GB2312
x = pd.read_csv(file_path, encoding="GB2312")
print(x)
read_data()
结果
三、参考
这篇博主的博文给了我提示,经过自己的尝试解决了这个问题,这也是解决编码问题的通用方法。