代码托管平台: https://gitee.com/w789369/PaChong/blob/master/test.py
1. 豆瓣抓站流程
- 分析url特征
- 对需要抓取的数据设计正则表达式
- 处理HTML中一些特征字符,换行符等
2. 实现的功能
简单的实现了抓取豆瓣电影Top100的电影名称
3. 后期工作展望
- 抓取更多的有用数据(如:准确抓取导演, 抓取一个电影评论)
- 使用多线程爬虫
- 学习第三方的爬虫框架(
Scrapy
) - 深入理解HTML编码和文本处理
关于爬取豆瓣电影项目想说下自己的感受与理解,首先来说是很实用的因为我们总会有想看电影放松一下,但是不知道该看什么的时候。所以,这时候爬取别人都喜欢的评分高的口碑好的这样一个软件就显得无比重要了。所以这个程序还是有存在的必要的。