一.
二.windows如何安装beautifulsoup4?
打开命令行输入:
pip install beautifulsoup4
pip3 install beautifulsoup4
检查是否安装成功
在命令行中输入python进入python编程环境
再输入from bs4 import BeautifulSoup 看是否报错,如果没有那么安装成功
三.urllib的用法
1urllib可以轻松模拟用户使用浏览器访问网页
2导入urllib库的request模块
from urllib import request
3.请求url
resp=request.urlopen("http://www.baidu.com")
4.使用响应对象输出数据
print(resp.read().decode("utf-8"))
5.模拟真实浏览器
有些浏览器通过判断User-Agent头来判断是否使用爬虫
req=request.Request(url)
req.add_header(key,value) #key就是"User-Agent" value就是按F12查看network User-Agent对应的值
resp=request.urlopen(req)
print(resp.read().decode("utf-8"))
from urllib import request req=request.Request("http://www.baidu.com/") req.add_header("User-Agent","Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Mobile Safari/537.36") resp=request.urlopen("http://www.baidu.com") print(resp.read().decode("utf-8"))
6.如何使用urllib发送一个post请求?
导入urllib库下面的parse 即 from urllib import parse
使用urllencode生成post数据
postData=parse.urllencode([
(key1,val1),
(key2,val2),
(keyn,valn)
])
使用postData对象发送post请求
request.urlopen(req,data=postData.encode("utf-8")) #req是Request类的对象
得到请求状态:resp.status
得到服务器的类型:resp.reason
7.通过网站http://m.thsrc.com.tw/tw/TimeTable/SearchResult 学习发送post 请求
打开网站按F12 点击到doc位置(因为如果选择ALL的话网页的所有东西都会加载出来),选择站点,选择查询
得到
8.一个网站检查哪里查看是否为用户访问
第一User-Agent
第二
第三