慕课网《Python遇见数据采集》学习过程笔记【1】（这个视频不适合我，终断）

慕课网《Python遇见数据采集》学习过程笔记【1】（这个视频不适合我，终断）
一.

二.windows如何安装beautifulsoup4?

打开命令行输入：

pip install beautifulsoup4

pip3 install beautifulsoup4

检查是否安装成功

在命令行中输入python进入python编程环境

再输入from bs4 import BeautifulSoup 看是否报错，如果没有那么安装成功

三.urllib的用法

1urllib可以轻松模拟用户使用浏览器访问网页

2导入urllib库的request模块

from urllib import request

3.请求url

resp=request.urlopen("http://www.baidu.com")

4.使用响应对象输出数据

print(resp.read().decode("utf-8"))

5.模拟真实浏览器

有些浏览器通过判断User-Agent头来判断是否使用爬虫

req=request.Request(url)

req.add_header(key,value) #key就是"User-Agent" value就是按F12查看network User-Agent对应的值

resp=request.urlopen(req)

print(resp.read().decode("utf-8"))
```
from urllib import request
req=request.Request("http://www.baidu.com/")
req.add_header("User-Agent","Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Mobile Safari/537.36")
resp=request.urlopen("http://www.baidu.com")
print(resp.read().decode("utf-8"))
```
6.如何使用urllib发送一个post请求？

导入urllib库下面的parse 即 from urllib import parse

使用urllencode生成post数据

postData=parse.urllencode([

(key1,val1),

(key2,val2),

(keyn,valn)

])

使用postData对象发送post请求

request.urlopen(req,data=postData.encode("utf-8")) #req是Request类的对象

得到请求状态：resp.status

得到服务器的类型：resp.reason

7.通过网站http://m.thsrc.com.tw/tw/TimeTable/SearchResult 学习发送post 请求

打开网站按F12 点击到doc位置（因为如果选择ALL的话网页的所有东西都会加载出来），选择站点，选择查询

得到

8.一个网站检查哪里查看是否为用户访问

第一User-Agent

第二

第三
相关阅读:
jquery操作iframe
KindEditor编辑器——在上传图片中选一张为焦点图片
 js查看浏览器类型和版本
 ASP.Net防止页面刷新重复提交
 js获取url参数
 sql游标简单试用
 jQuery跨域
 两款实用免积分下载工具，支持百度文库、豆丁网等
 Asp.Net 无法解析此远程名称"www.xxx.com"
android中使用DisplayMetrics获取屏幕参数
原文地址：https://www.cnblogs.com/iamjuruo/p/7470872.html