公司要建个文档管理系统,想想没必要自己写,就在网上找了一个基于AMP的开源软件OpenDocMan。部署倒也很顺利,就在是通过部门查询文档的时候,出现了无法根据中文搜索的问题。
开启mysql日志后,发现查询语句中的查询条件为SELECT * FROM D where name LIKE '%u751F%u4EA7%u90E8' )。对'%u751F%u4EA7%u90E8' ,百度了一下,就是是自己的查询条件:“生产部”的unicode编码。分析属于字符集问题,于是把数据库字符集都改成和页面编码一样的UTF-8,仍然不行。突然想到查询语句本身就不对,当然怎么改数据库也没用了。变换思路在服务端对这个字符串进行解码成自己需要的查询条件,加解码函数,还是不行,甚至想过在数据库端进行解码,也没成功。
仔细思考一下,发现中文传参需要编码是很正常的,但是一般情况下编码出来都不会是%U这种格式的,而是%E6%82%A8这样的格式,是浏览器根据页面头中规定的格式来进行编码,一般是GBK,或者是UTF-8,再翻翻源代码,发现页面中指定字符集为utf-8,那很明显%u751F%u4EA7%u90E8不是浏览器编码得来的,而是通过代码中通过编码函数得来的。顺着线索找,终于在源代码中找到了提交请求的JS代码,其中用了escape函数来编码查询条件,直接删除escape,让浏览器自动编码,再试中文查询,这下整个世界安静了。
这个问题花了这么长时间,主要还是我对js不太熟悉造成的。
关于escape和页面参数编码更详细可以看这篇文章,讲得非常细致
http://www.haorooms.com/post/js_escape_encodeURIComponent