项目地址:copywang/spiders_collection
实现功能
- 爬取手机界面的所有手机评论列表
- 存储到MONGODB
步骤
- 获取首页的手机列表,并获取各个手机标题和详情页的URL
- 把第1步获取的详情页URL分别打开,并获取产品ID
- 根据产品ID结合URL,组合出评论页的JSON请求并获取JSON数据
- 首页的JSON数据中包含最大的评论页数
- 使用最大评论页数作为循环,获取得到所有页的评论
遇到的问题
- 返回的JSON数据包含一些乱七八糟的开头,不能使用json.loads()方法生成字典
- 有时候请求评论页JSON会出现乱码
- 暂时想不到多线程在哪里使用合适
改进
- 使用json.loads()方法
- 使用多线
爬取后的数据: