请求库(requests,selenium)、解析库(beautifulsop)、存储库、工具库等
urelib
re
上面这两个是python自带的库
需要自己安装额库:
(在windows下,使用pip install 命令)
requests
selenium用来驱动浏览器,做自动化测试,一些被js渲染的用这个来获取源代码
phantomjs,无界面浏览器,下载,并将phantomjs.exe配置到环境变量
lxml,可以用来进行网页的解析
------------------------------------
beautifulsoup,也是一个网页解析库,并且依赖于lxml库,在安装时需要输入pip3 install beautifulsoup4,导入时使用import bs4
from bs4 import Beautifulsoup
-------------------------------------
pyquery也是一个网页解析库,比beautifulsoup更加方便
一些存储库:
pymysql
pymongo
redis
一些工具库
flask是一个web库,在做一些代理的设置是=时,可 能会用到这个库
django,一个web服务器框架
jupyter,可以理解为一个笔记本,但这个笔记本功能比较强,可以在先运行代码,很多功能,用来写代码或者文档记录很方便
在linux下,使用如下命令即可:
pip3 install requests selenium beautifulsoup4 puquery pymysql pymongo redis flask django jupyter