Python爬虫技巧

Python爬虫技巧一之设置ADSL拨号服务器代理

reference: https://zhuanlan.zhihu.com/p/25286144

爬取数据时，是不是只能每个网站每个网站的分析，有没有通用的方式

做爬虫也好多年了，一般抓取网站中的标题，文章发布时间，正文，文章图片。可以做到 80%用通用规则解决。
1，标题：在提取链接的时候把 link title 保存下来
2，文章发布时间：用网页 heads 里的 last modify
3，抽取正文：有开源的模块（ Python 有 readability-lxml，Java 有 JoyHtml
4，文章图片：在抽取的正文中提取<img>

相关阅读:
springboot访问项目中某个module的图片（服务器拿不到）
ValidForm ajaxurl 进行表单验证检验用户名是否存在
jrebel热部署配置
form标签之form:checkboxes
springboot 整合jsp过程中的一些问题
springboot的一些配置
mysql5.7解压版
[转载][翻译] 利用JSF、SpringFramework和Hibernate构建Web应用的实例讲述
获取本机MAC地址
个人职业生涯讨论

原文地址：https://www.cnblogs.com/skying555/p/6624642.html