博客班级 | https://edu.cnblogs.com/campus/fzzcxy/2018CS/ |
---|---|
作业要求 | https://edu.cnblogs.com/campus/fzzcxy/2018CS/homework/11732 |
作业目标 | 1. 爬取电视剧《在一起》的评论 2.数据处理 3.生成词云 4.将代码上传到Github |
作业源代码 | https://github.com/KKBKKO/first-personal-work |
学号 | 211806122 |
步骤 | 花费时间 |
---|---|
1.采集影评数据 | 3h |
2.处理数据 | 4h |
3.数据生成词云图 | 2h |
4.上传到Github | 1h |
1.评论爬取
(1)打开腾讯视频搜索电视剧《在一起》,点击进入评论区。
(2)对网页的request请求进行分析,可以发现网页是异步加载的。
(3)查看更多评论得到新的响应。
(4)打开控制台,点开network,可以得到当前页面的resquest-url,多次刷新查看评论并进行观察,会发现每次都会有一个V2开头的标签,点开可以发现评论信息。
(5)会发现url的规律,变化的只有尾部的数字和"cursor="后面的数字,于是可以根据这个进行爬取数据了,并把它保存在txt文件中。
2.数据处理
使用正则爬取
获得评论
3.生成词云
4.上传到Github
·通过命令进入到自己需要操作的文件夹内,进入master模式。
·连接我的github仓库
·输入"git clone"仓库HTTPS地址,将远程仓库的项目克隆到本地仓库
cd进入first-personal-work文件,"git branch -a"查看所有分支
输入"git checkout crawl"切换分支
输入"git add 文件名",将文件添加到暂存区
个人感悟
这次的个人编程作业对我来说着实有着不小的难度,通过网上查询资料与向同学请教才跌跌撞撞出来,认识到了自己的欠缺与不足。通过这次的任务,也了解到了很多有趣实用的知识,希望开学后可以更好的进行学习。未来的路还很长,希望自己可以一路披荆斩棘,攻克一个又一个的难关。