大家都知道Excel读csv用的是ascii编码,我认为,ascii没有中文,所以这里指的应该是utf-8.
我遇到的问题是这样的,unity项目只能用txt文件,有一堆数据表用txt的文档保存下来了,现在要转回Excel表。我利用Python把txt的内容读出来然后生成csv文件,因为excel能导入csv文件。后来发觉用excel打开的话中文内容会显示乱码。网友的说法是用文本文档打开,然后另存为ascii格式。这种方法我用了,果然有效,不过这个文本编辑器不支持命令行操作,不能完成自动化操作。
我用line = line.decode('gbk')这行代码,报错了。然后尝试line.decode('gbk','ignore'),再line.encode('utf-8','ignore'),发现普通编辑器打开也变成乱码了。
仔细想一想,decode的作用就是把其它编码格式转换为Unicode(utf-16),encode就是从万能的Unicode转成其它格式。我想,先保证文本能正确转成unicode吧,如果decode('gbk')会报错的话,会不会它本来就不是gbk呢。decode('utf-8')不报错,不用加ignore参数。然后我再encode('utf-8'),发现是乱码,我突然间有种预感,Python能正常显示中文的编码,Excel却不能。我试试先输出纯净的gbk,因为之前decode('utf-8')后,得到了纯净且万能的unicode编码,怀着试一试的态度,用excel打开,居然能正常显示中文。我之前的思路一直是把gbk转成utf-8,而事实上是excel能显示gbk,不能显示utf-8中文,我晕了。
最终代码如下:
line = line.decode('utf-8')
line = line.encode('gbk')