Python爬虫技巧一之设置ADSL拨号服务器代理
reference: https://zhuanlan.zhihu.com/p/25286144
爬取数据时,是不是只能每个网站每个网站的分析,有没有通用的方式
做爬虫也好多年了,一般抓取网站中的标题,文章发布时间,正文,文章图片。可以做到 80%用通用规则解决。
1,标题:在提取链接的时候把 link title 保存下来
2,文章发布时间:用网页 heads 里的 last modify
3,抽取正文:有开源的模块( Python 有 readability-lxml,Java 有 JoyHtml
4,文章图片:在抽取的正文中提取<img>