最近在做项目时需要通过xml接口读取合作伙伴数据到数据库,在xml解析环节出现有些特殊中文字符乱码的现象。后采取下面的办法终于解决。
1.curl 抓取过来的字符是unicode编码,需要先转换为utf-8.
2.统一文件格式为utf-8
xml文档头部添加 <?xml version="1.0" encoding="UTF-8"?>
抓取保存代码本身页面需要保存为utf-8格式
3.保证保存到数据库前把编码转换为数据库设置的保存编码,我们数据库是gb2312格式,所以保存前先转为gb2312