爬虫笔记

爬虫笔记
爬虫案例
- 12306抢票
爬虫可以从12306的合作网站比如:携程网去哪儿进行火车票购票
- 网站上的投票
使用爬虫进行微博刷榜用户 ip cookie
- 短信轰炸
不推荐
- 京东商户爬虫
将淘宝商家发布的商品数据通过爬虫爬取到然后发布到京东的后台
商品爬虫填写淘宝网后台的账号密码
- 文章类型的网站
微信公众号作者会发布很多文章百度搜索不到这些文章
使用爬虫爬取到这些文件发布到自己的网站上这样做成一个自动化的文章网站
然后既可以通过放至广告就可以得到广告收入

爬虫的分类

通用爬虫：通常指搜索引擎的爬虫

聚焦爬虫：针对特定网站的爬虫

根本区别是用户不同

pr算法 pagerank

python
```
今天我学习了<a href="https://www.python.org">python</a>. .....

今天我学习了<a href="https://www.python.cn">python</a>. .....
```
robots协议

robots.txt

User-anget: Baiduspider
Allow: /product
Allow: /photo
Disallow: /admin

锚点

http://item.jd.com/11936238.html
http://item.jd.com/11936238.html#product-detail

注意事项

浏览器Elements中内容是经过js修改后的内容,跟爬虫获取的内容不一样,爬虫获取的内容是右键"查看源代码"中的内容

HTTP GET请求

GET /login/doSuccess?id=100 HTTP/1.1
Host: ntlias3.boxuegu.com
Connection: keep-alive
Cache-Control: max-age=0
Upgrade-Insecure-Requests: 1
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,/;q=0.8
Referer: http://ntlias3.boxuegu.com/
Accept-Encoding: gzip, deflate
Accept-Language: zh-CN,zh;q=0.9,en;q=0.8
Cookie: remember_pwd_username=zhaoshuailin@itcast.cn; remember_pwd_passowrd=%3D%3D; SESSION=4e20-a25d-99cfbf778a96

HTTP POST请求

POST /login HTTP/1.1 // 请求行
Host: ntlias3.boxuegu.com // 请求头请求头有多行
Connection: keep-alive
Cache-Control: max-age=0

username=admin&password=admin123 // 请求体

GET请求的参数在url里边 POST请球的参数在你什么地方?

请求体

状态码
- 1xx：临时请求请求未完成
- 2xx：成功
- 3xx：临时xxx
- 4xx：请求有问题
- 5xx：服务器内部错误
字符集

ASCII: 0-9a-zA-Z特殊符号
GBK: 0-9a-zA-Z特殊符号阿-作
日本编码
韩国编码
Unicode: 0-9a-zA-Z特殊符号日本编码韩国编码俄罗斯阿拉伯

字符编码

字符编码不是字符的集合是unicode字符集的编码形式

常见字符编码: utf-8 utf-16 utf-32

python3中的字符串扩展知识

python代码文件的编码: 默认utf-8
python3内部(内存中)使用的编码: utf-16
输出的编码: 检测当前环境自动转码输出的文本

chcp 65001 转换为utf-8编码

requests模块是第三方模块

需要使用pip进行安装

pip install requests

代码如下:
```
import requests
resposne = requests.get("https://www.baidu.com/")
print(resposne.content.decode())
```
练习：把网络上的图片保存到本地

以什么方式打开文件
保存什么格式的内容
相关阅读:
关于Tomcat版本的使用
 Twitter
Thinkpad在Windows8上热键的解决方案
 关于C#中程序当前目录的小随笔
 【Network】OSPF排错及其七种状态机
 如何修改已有的ONNX模型
 安全计算环境（三）Windows服务器4
安全计算环境（三）Linux服务器5
安全计算环境（三）Linux服务器2
安全计算环境（二）防火墙2
原文地址：https://www.cnblogs.com/blog-rui/p/9806294.html

爬虫案例

爬虫的分类

pr算法 pagerank

robots协议

锚点

注意事项

HTTP GET请求

HTTP POST请求

GET请求的参数在url里边 POST请球的参数在你什么地方?

状态码

字符集

字符编码

python3中的字符串扩展知识

requests模块是第三方模块

练习：把网络上的图片保存到本地