一:获取网页
发送http请求获得网页源码
可使用库:urlib / requests
二:提取信息
获取网页源代码后,接下来就是分析网页源代码,从中提取我们想要的数据。
最常用最通用:正则表达式
根据一些网页节点属性的库:Beautiful Soup / pyquery / lxml
对于使用Ajax接口的网页代码:Selenium / Splash (模拟JavasScript渲染)
三:保存数据
文本:TXT / JSON
数据库:MySQL / MongoDB
远程服务器:SFTP
学习文档:静觅爬虫实战