模拟搜索引擎的关键是知道该搜索引擎的关键词接口
百度的关键词接口是:http://www.baidu.com/s?wd=KEYWORD
360搜索的关键词接口是:http://www.so.com/s?q=KEYWORD
百度搜索Python:
import requests
keyword = "Python"
url = 'http://www.baidu.com/s'
try:
kv = {'wd':'keyword'}
r = requests.get(url,params=kv)
print(r.request.url)
r.raise_for_status()
r.encoding = r.apparent_encoding
print(len(r.rext))
print(r.text[:1000])
except:
print("爬取失败")
360搜索Python:
import requests
keyword = "Python"
url = 'http://www.so.com/s'
try:
kv = {'q':'keyword'}
r = requests.get(url,params=kv)
print(r.request.url)
r.raise_for_status()
r.encoding = r.apparent_encoding
print(len(r.rext))
print(r.text[:1000])
except:
print("爬取失败")
任意给一个搜索引擎,获取它的搜索接口的方法为:
以百度为例,在百度搜索框内输入Python,直接搜索,然后在地址框内找到&wd=Python字样的,则百度的搜索接口就是百度的搜索网址加上wd