百度搜索链接规则为:
http://www.baidu.com/s?wd=[搜索词目]&cl=3
有多个搜索词通过加号进行链接:
http://www.baidu.com/s?wd=keyword1+keyword2&cl=3
如果关键词中有中文的话,百度就会将其转码为%开始的编码。常用的编码格式主要有utf-8
、gbk
两种,二者的转码结果是不一样的,下面通过Python
的urllib
库进行测试。
# 百度URL链接转码
import urllib
keyword = '测试'
kwd = urllib.parse.quote(keyword, encoding = 'utf-8', errors = 'replace')
print(kwd)
kwd = urllib.parse.quote(keyword, encoding = 'gbk', errors = 'replace')
print(kwd)
结果如下:
%E6%B5%8B%E8%AF%95
%B2%E2%CA%D4
对比浏览器的网址,可知百度采用的是utf-8编码。
参考链接1:关于url链接包含中文编码问题
参考链接2:百度搜索链接中的汉字转码