urllib 库
urllib.request库
re库
以上三个基本上python3内置
剩下的用第三方pip安装
1、pip install requsets
>>>import requests >>>requests.get('http://www.baidu.com')
返回响应status
2、pip install selenium(驱动浏览器、自动化测试)
大多数网页存在js渲染,普通requests无法读,可以通过驱动浏览器渲染读取
>>>import selenium >>>from selenium import webdriver >>>driver=webdriver.Chrome()
报错,缺少浏览器驱动
3、安装浏览器驱动(chromedriver)
//(版本对应表)
将解压的exe文件移动到pip执行目录中(大概率是script文件夹)
命令行执行chromedriver,成功,继续2的代码
>>>import selenium >>>from selenium import webdriver >>>driver=webdriver.Chrome()
成功调用chrome
>>>driver.get('http://www.baidu.com') >>>driver.page_source//打印渲染过的源代码
4、phantomjs安装
3步骤的渲染每次都需要掉用浏览器驱动,比较多余,可以用phantomjs来省略
下载解压得到exe,添加到环境变量中
>>>from selenium import webdriver
>>>driver=webdriver.PhontomJS()
>>>driver.get('http://www.daidu.com')
driver.page_source//直接得到渲染过的源代码
5、pip install lxml
此处介绍另一种直接安装‘轮子’的方法,下载对应whl文件
命令行执行 pip install ***(***为轮子的路径)即可
6、beautifulsoup安装(需要先安装5)
pip install beautifulsoup4
>>> from bs4 import BeautifulSoup >>> soup=BeautifulSoup('<html></html>','lxml') >>> print(soup) <html></html>
7、pyquery库的安装
pip install pyquery
>>> from pyquery import PyQuery as pq >>> doc=pq('<html><h1>你好</h1></html>') >>> result=doc('html').text()//此处调用的jquery的语法 >>> result '你好'
8、mongdb
安装好后在bin文件夹下面(不是里面)新增‘logs’文件夹,内新增文件mongo.log。。。
9、redis数据库
>>> import redis >>> r= redis.Redis('localhost',6379) >>> r.set('name','bob') True >>> r.get('name') b'bob' >>>
10、flask(web库,设置代理)
pip install flask
11、django
12、jupyter(可以在线执行python代码的工具)
pip install jupyter
>>>import jupyter >>>jupyter notebbok//跳转浏览器