分类: Android开发 |
http://blog.csdn.net/followingturing/article/details/7850317
http://www.baidu.com/s?wd=justin&rsv_spt=1&issp=1&rsv_bp=0&ie=utf-8&tn=baiduhome_pg&rsv_sug3=6&rsv_sug9=eb&rsv_sug4=354&rsv_sug2=0&inputT=1284
原创文章,版权归andxu所有,如转载请征求本人同意,并一定保存本页链接。
——————————————————————————————————————————————————
在做搜索时候,关注搜索引擎的URL格式是一个很重要的问题,以百度为例,整理一下常用的格式和技术:
Eg.几个百度搜索的URL
http://www.baidu.com/s?lm=0(搜索结果时间限制) &si=&rn=10(每页显示的数目) &ie=gb2312&(语言)ct=0 &wd=�%6��& (关键词)pn=10 (在第pn比上10后加上1页) &ver=0 &cl=3 &uim=6 &usm=0
http://www.baidu.com/s?ie=utf8&bs=mc&f=8&rsv_bp=1&rsv_spt=3&wd=百度搜索url含义&inputT=12534
ttp://www.baidu.com/s?wd=libreoffice+cal+�Զ�����&rsv_bp=0&rsv_spt=3&oq=libreoff&sug=libreoffice&rsv_n=1&rsp=0&inputT=23204
http://www.baidu.com/s?word=jay+site:blog.csdn.net&tn=sitehao123&ie=utf-8
所以关键问题:怎么正确认识百度搜索的参数?
就目前的认识,整理一下参数:
序号 | 参数 | 含义 |
1 | tn | 搜索框所属网站。比如 tn=sitehao123,就是 http://www.hao123.com/ 左上那个搜索框(指通过什么方式到达百度首页搜索界面;) |
2 | s?wd | 指关键词, “wd=” 是英文的word的缩写,参数表示的是搜索关键词的内容,如果是汉字那么这个参数是汉字的十六进制形式,如果是英文,那么这个参数就用该英文来表示 |
3 | rsv_bp | (0,1,2) 0是首页输入;1是顶部搜索输入;2是底部搜索输入 |
4 | rsv_spt | (1,3还有其他的数字,暂时没发现) 指的浏览器内核; |
5 | rsv_ers | xn* (*取0或1) 指的是搜索词后,翻页出现对应的相关搜索,从0开始。如果在url里已经是0的话,那对应的相关搜索就从1开始(这个参数还有很多密,这个只是初步测试) |
6 | rsp | 指的是相关搜索排序(从0开始) |
7 | sug | 这个参数只有在你修改下拉框文字时才会出现,指的是下拉框出现的关键词 |
8 | oq | 指的是你在输入搜索词时,输入一半,选择了下拉框之前输入的词;oq= 指的是搜索词,只有当url地址出现rsp而非rsv_bp时,oq才指的是从搜索词跳转到相关搜索。 |
9 | inputT | 从你打开百度主页,在对话框输入数据的时候开始计时,到你点击百度一下的时间计算。(只有在顶部搜索,首页搜索才会出现)。 |
10 | s?bs | 指的是上一次搜索的词, “bs=”参数应该是英文“base”的缩写,也就是“基于...”的意思,通俗点说就是在搜某一个关键词后再次搜索其它关键词的意思。bs=这个参数是百度用来判断某个关键词的相关关键词而设置的,也就是百度通过用户的搜索行为来判断某个关键词的相关关键词.(Maybe Before Search) |
11 | f | (1,3,8) 也许还有其他的,暂时发现就这3种,1指的是相关搜索,表示用户选择了搜索页面最下面的“相关搜索”中的某个关键词。;3下拉框搜索 表示用户输入一定的词语之后出现“联想词语”,用户最终用鼠标选择了某个关键词;或用键盘选择了某个关键词后直接按回车。;8用户自主搜索,表示用户直接点击“百度一下”按键(有bs变量时才出现f=8) |
12 | ieInput Encoding | 输入编码。百度似乎不支持其它编码。 默认值是“gb2312” |
13 | ct | 语言限制。0-所有语言,1-简体中文网页,2-繁体中文网页;其它不确定或者无效或。默认值为0. |
14 | rn | 每页包含的搜索结果数目。默认值为10 |
15 | pn | 搜索结果的页码,从零开始计数。即pn = ${结果页码-1}*rn。 |
16 | lm | 搜索结果的时间限制。以天为单位,例如搜索最近一个月的网页,lm=30.默认值为0,表示没有时间限制。 |
17 | q5 | 搜索内容位置限制.0-所有内容;1-网页标题(相当于使用'title:'查询前缀);2-url(相当于使用'inurl:'查询前缀);其它值等效于0.默认值为0 |
18 | q6 | 搜索内容网站限制.例如q6=sohu.com,表示只搜索sohu.com的网页;相当于使用了'site:前缀'.默认值为空 |
19 | dq | 不建议使用该参数.查询内容来原的地区限制. 具体值有百度确定.默认值为空.试了一下,使用这个参数的效果很差. |
20 | cl | 百度提交的搜索类型(Class),cl=3为网页搜索,cl=2为百度新闻 |
21 | rs2 | 暂时未知 |
22 | sc | 暂时未知 |
23 |