1.河北阳光理政投诉板块-写在前面
之前几篇文章都是在写图片相关的爬虫,今天写个留言板爬出,为另一套数据分析案例的教程做做准备,作为一个河北人,遵纪守法,有事投诉是必备的技能,那么咱看看我们大河北人都因为什么投诉过呢?
今天要爬取的网站地址 http://yglz.tousu.hebnews.cn/l-1001-5-
,一遍爬取一遍嘀咕,别因为爬这个网站在去喝茶,再次声明,学习目的,切勿把人家网站爬瘫痪了。
2.河北阳光理政投诉板块-开始撸代码
今天再次尝试使用一个新的模块 lxml
,它可以配合xpath
快速解析HTML文档,官网网站 https://lxml.de/index.html
利用pip安装lxml,如果安装失败,可以在搜索引擎多搜搜,内容很多,100%有解决方案。
pip install lxml
废话不多说,直接通过requests
模块获取百度首页,然后用lxml
进行解析
import requests
from lxml import etree # 从lxml中导入etree
response