• 爬取豆瓣评论之——后来的我们


    《后来的我们》上映了,或许大家有点小期待吧。毕竟,影片的主题曲《我们》,早就虐哭了不少人。电影能否跟歌曲一样深入人心?怀着这样的一种心情,下面就来看一下它的影评如何吧。

    1.抓数据

    通过试探知道:豆瓣影评设置权限,没有登陆的话,只能够看到前面的几十条短评,并且登录的时候需要输入验证码。所以考虑使用selenium来获取数据。
    登录时需要的验证码,通过保存图片,然后手动输入
    加群923414804免费获取数十套PDF资料,助力python学习后来的我们

    所以构造两个方法

    登陆成功之后,通过搜索框搜索《后来的我们》,进入详情页,随后进入短评列表
    这里写图片描述
    这里写图片描述
    需要获取昵称,短评和赞同数
    这里写图片描述
    每一个步骤我们都构建一个方法

    还有最重要的一步就是,需要进行翻页,然后重新获取短评信息

    ps:由于技术较渣,所以直接跳到最后一页,发现只有24页,所以直接使用循环了<~_~>

    2.数据处理

    在获取到数据之后,制作成图表,让我们更加直观的看到大体情况

    这里写图片描述
    从图中可以看出短评中最受欢迎的大概有2500票,并且大部分集中在前排,(这是后面没有多少人看,所以点赞少?)
    咳咳。。。前排很重要呀

    接下来把所有的评论制作成云图

    得到下面的云图:
    这里写图片描述
    从图中看到,大部分在评论周冬雨、感慨我们后来没有故事
    ps:数据是4/29晚所爬取的

    接下来统计一下赞同数前十的评论

    昵称获赞数短评
    Magic 2475 台词矫情的令人发指!
    华盛顿樱桃树 2230 最好的是演员,周冬雨完全开辟出自己的戏路。小井进步惊人,已长出美丽。最差的是编剧,没有一场完全连贯的戏,几乎都是攒的。
    痴痴的钟灵 1784 希望奶茶好好演戏唱歌,矫情的青春片已经没有市场了。吃完瓜回来,劝眼善良,中国的电影市场要被你们搞的烂透了。在工作日首日票房近3亿,把自己当妇联了么,【把没有市场收回,有,眼在何愁没有100亿.
    昵称过期作废 1785 毫无看点可言。剧情处处是硬伤!这是电影吗?这是PPT,刘小姐,还是回去唱歌吧。
    末药煎肉塔 1601 现在还把北京设定为梦想之城的,大概受众也是瞄准了小镇青年吧(多次冲北京喊话真是挺尴尬的)。剧情拖太长,唯一的泪点还是田壮壮演的老爸,周冬雨老演这种角色不会腻吗?
    xiaoning 1373 真的很讨厌卖情怀的电影,而且还有一个不是很有才华的歌手做导演,要不是主题曲我应该都不会想看。(留言说我收钱黑的,老子收了一分黑钱我多的钱都亏出去行了吧,就这尴尬的台词乱拼凑的故事是在看ppt吗还用收钱黑,我真是谢你们大爷了,你不用管我觉得谁有才华,反正这位文青女导演还真不是)
    张无B 1508 刘若英对着镜头唱一遍后来我都觉得比这片子感动。
    葡萄猪不爱睡觉 1238 从形式内容到档期营销,统统都是模仿当年的致青春,致青春票房年度第二,这部最终估计也不会差
    糖炒荔枝 1146 在我眼里第二个无问西东,投机取巧,毫无才华,对不起
    尼克Lui 995 垃圾做作的电影 这么多年了还在不断的重复搞这种烂片 大晚上被抓住票房造假 哈哈哈哈哈哈 垃圾怎么包装也是垃圾!

    ps:以上评论均来自豆瓣影评

    3.总结

    或许是主题曲提前预热了市场,让观众的期望值变高了,《后来的我们》在豆瓣上的评分只有6.2分,并且现在又出现了退票事件。
    单就电影来说,感觉还是可以的。或许是豆瓣的用户眼光有点高了。

    爱情有一种结局,是后来的我们,只能从情侣变成爱了很久的朋友。
    电影有句很扎心的文案,“再后来,我什么都有了,却独独没有了我们”
    希望我们好好珍惜。

  • 相关阅读:
    Oracle 临时事务表 全局临时表_global temporary table
    js String Trim函数
    解决Navicat Error: Missing required libmysql_d.dll
    win8双屏敲代码
    条件注释判断浏览器
    Eclipse 中Alt+/快捷键失效的解决办法。
    解决java写入xml报错org.w3c.dom.DOMException:DOM002 Illeg
    用解释计划评估创建索引后对单表查询效率的影响
    在某文件夹查找以日期命名的目录,如果早已目标时间则删除之
    (Python)正则表达式进行匹配
  • 原文地址:https://www.cnblogs.com/paisenpython/p/10303826.html
Copyright © 2020-2023  润新知