安装各种可能需要的库
pip3 install requests selenium lxml beautifulsoup4 pyquery pymysql pymango redis flask django jupyter
一。爬虫基本原理讲解
1. 抓网页
import requests
response=requests.get("http://www.baidu.com")
print(response.text)
print(response.headers)
print(response.status_code) //返回状态码
头信息可要可不要
headers={}
headers={'User-Agent' : '网页上查看的请求头信息'}
response=requests.get('http://www.baidu.com', headers=headers)
2. 抓图片,视频等
import requests
response=requests.get('https://www.baidu.com/img/1.gif')
print(response.content) //响应体的2进制格式
with open('/var/1.gif', 'wb') as f:
f.write(response.content)
f.close()
3. 解析方式
直接处理
json解析
正则
beautifulsoup
pyquery
xpath
二. 怎么解决javascript渲染看不到真实源代码的问题
1. 使用selenium/webdriver
安装方法如下
$ unzip chromedriver_linux64.zip
$ sudo mv chromedriver /usr/bin/
$ sudo chmod +x chromedriver
windows中是把chromedirver解压包放在python目录下
测试代码如下
from selenium import webdriver
driver=webdriver.Chrome()
driver.get('http://m.weibo.com')
print(driver.page_source)
2. splash (github上搜索)
三. 怎么保存数据
1. 文本
2. 关系型数据库
3. 非关系型数据库
4. 二进制文件