爬虫常用模块 - 润新知

爬虫常用模块
请求库

urllib

requests

安装
```
pip install requests
```
get请求
```
import requests
ret=requests.get('https://api.github.com')
print(type(ret))
print(ret.status_code)
print(type(ret.text))
print(ret.cookies)
```
　数据
```
import requests
data={
    'name':'germey',
    'age':22
}
ret=requests.get('https://httpbin.org/get',params=data)
print(ret.text)
```
　　

selenium

1.驱动浏览器的

2.自动化测试

chromedriver

https://chromedriver.chromium.org/

http://chromedriver.storage.googleapis.com/index.html

1.驱动浏览器

1.放到pip同级

phantomjs

下载 https://phantomjs.org/download.html

添加环境变量

1.无界面浏览器

解析库

lxml

1.xpath解析

beatifulsoup4

引入from bs4 import beautifulsoup

1.html解析库

tesserocr

參考https://www.cnblogs.com/Jimc/p/9772930.html

pyquery

1.解析库

存储库

pymysql

pymongo

redis

jupyter

打开 jupyter notebook

1.记事本

2.运行脚本 ctrl+回车运行

3.增加一行，按b, 删除一行按d

splash

地址 https://github.com/scrapinghub/splash

数据库

web库

flask

web库

django

web服务框架

爬虫框架

scrapy
相关阅读:
Linux中的用户和用户组
 GCC编译过程
 C++设计模式——单例模式（转）
快速排序之python
归并排序之python
计数排序之python
希尔排序之python
插入排序之python
选择排序之python
冒泡排序之python
原文地址：https://www.cnblogs.com/huay/p/11320966.html

Copyright © 2020-2023 润新知