前言
博主最近在用python3练习一些爬虫脚本的时候,发现一些url的编码问题,在浏览器提交请求api时,如果url中包含汉子,就会被自动编码掉。呈现的结果是 ==> %xx%xx%xx。如果出现3个百分号为一个原字符则为utf8编码,如果2个百分号则为gb2312编码。下面为大家演示编码和解码的代码。
编码&解码
from urllib.parse import quote,unquote text = "丽江" print(quote(text,'utf-8')) str = "%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98" print(unquote(str,'utf-8'))
运行以上代码可以得到如下结果:
%E4%B8%BD%E6%B1%9F
数据挖掘
原文:https://blog.csdn.net/qq_33876553/article/details/79730246