简单团队-爬虫豆瓣top250-项目总结

简单团队-爬虫豆瓣top250-项目总结
代码部分截图：

1.

2.

3.

运行后效果完成图：

4.

5.

6.数据库：

代码托管平台： https://gitee.com/w789369/PaChong/blob/master/test.py

1. 豆瓣抓站流程
1. 分析url特征
2. 对需要抓取的数据设计正则表达式
3. 处理HTML中一些特征字符,换行符等
2. 实现的功能

简单的实现了抓取豆瓣电影Top100的电影名称

3. 后期工作展望
- 抓取更多的有用数据(如:准确抓取导演, 抓取一个电影评论)
- 使用多线程爬虫
- 学习第三方的爬虫框架(Scrapy)
- 深入理解HTML编码和文本处理
关于爬取豆瓣电影项目想说下自己的感受与理解，首先来说是很实用的因为我们总会有想看电影放松一下，但是不知道该看什么的时候。所以，这时候爬取别人都喜欢的评分高的口碑好的这样一个软件就显得无比重要了。所以这个程序还是有存在的必要的。
相关阅读:
关于微信最新推出的应用号的看法
 HTML常见标签
 重读《从菜鸟到测试架构师》-- 模拟客户的访问行为（上）
重读《从菜鸟到测试架构师》-- 大促带来的灾难
 重读《从菜鸟到测试架构师》-- 功能测试之百种变身
 重读《从菜鸟到测试架构师》-- 对黑盒子的全方位照明
 重读《从菜鸟到测试架构师》-- 如何把黑盒子分块
 重读《从菜鸟到测试架构师》-- 黑色的盒子里有什么（下）
重读《从菜鸟到测试架构师》--黑色的盒子里有什么（中）
重读《从菜鸟到测试架构师》-- 黑色的盒子里面有什么（上）
原文地址：https://www.cnblogs.com/jiandan12138/p/7944487.html

简单团队-爬虫豆瓣top250-项目总结

1. 豆瓣抓站流程

2. 实现的功能

3. 后期工作展望