我们在访问网站时,有很多连接都是有一些特殊符号组成,例如,我在百度搜索“大鱼海棠”,结果可以看到它的搜索出来的链接是:
https://www.baidu.com/s?wd=%E5%A4%A7%E9%B1%BC%E6%B5%B7%E6%A3%A0
此链接就是进行过URL编码之后的链接,它并不是我们所说的乱码,而是进行了编码,我们不认识罢了。那么如何在python处理URL编码进行解码呢。例如:
(1).解码
from urllib import parse url ='https://www.baidu.com/s?wd=%E5%A4%A7%E9%B1%BC%E6%B5%B7%E6%A3%A0' new_url=parse.unquote_plus(url) print(new_url)
解码结果是:https://www.baidu.com/s?wd=大鱼海棠
(2)加上编码
from urllib import parse url ='https://www.baidu.com?query=Python基础教程' new_url=parse.quote_plus(url) print(new_url)
结果是:https%3A%2F%2Fwww.baidu.com%3Fquery%3DPython%E5%9F%BA%E7%A1%80%E6%95%99%E7%A8%8B