• Hadoop综合大作业


    本次作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363

    一、将爬虫大作业产生的csv文件上传到HDFS

     

     

    二、对CSV文件进行预处理生成无标题文本文件

     

    三、把hdfs中的文本文件最终导入到数据仓库Hive中

     

    四、在Hive中查看并分析数据

     

    五、用Hive对爬虫大作业产生的进行数据分析,写一篇博客描述你的分析过程和分析结果。(10条以上的查询分析)

    1、查询总共有多少条评论数据

    分析:从查询的数据可以看出,爬取到的《何以为家》评论中,总共有13778条评论数据。

    2、查询不重复ID的评论数

    分析:去掉重复id之后,查询到共有9293名用户参与《何以为家》这部电影的评论。

    3、查询评论数前20名的城市

    分析:从以上查询到的数据显示,北上广深的观影用户排名前四,深圳位居榜首。

    4、查询各个评分等级的数量

    分析:从以上评分等级的数量分布来看,评分4.0以上的占非常大一部分,可以看出大家对这部电影还是相当满意。

    5、查询上映第一天的评论量

    分析:查询到上映当天的评论数为896条,也就是上映的两个钟里就有近千名用户参与评论。

    6、查询上映第一天评分为5分的评论数

    分析:从上映当天896条数据中,查询出其中有604位观众给了5分评价,可见这部电影的评价是很高的。

    7、查询评论次数最多的20个用户

    分析:查询出评论数最多的前20个用户,由于评分只能评一次,推断出这20名用户至少4刷了这部电影。

    8、查询城市中评分为5分的数量最多的前20名

    分析:查询了评5分最多的前20名城市,其中北上广深由于参评用户多,固然居于前五名,成都值得一提,超过了上海。

    9、查询城市中评分低于2分的数量最多的前20名

    分析:查询了评分低于2分的用户数排名前20的城市发现,参评用户数第三的北京仅排到第11位,可见北京的观众反响还是不错的。

    10、查询深圳评分等级的分布情况

    分析:深圳作为参评人数最多的城市,从以上查询的数据可知,绝大部分的观众给出的分数都为3.5以上,总体上满意度还挺高。

    总结:综上所述,《何以为家》这部电影的满意度很高,给出5分的观众占了评论总数的绝大部分,从观影评论的地区来看,像北上广深这种经济发展较快的城市会观影较多,而发展较慢的城市观影人数也会相应的减少。从上映第一天的评分情况也可以看出这部电影的反响很不错。总的来说,《何以为家》这部电影还是值得大家去观看的~

  • 相关阅读:
    记录学生的日常
    el表达式与jstl的用法
    学习心得——袁康凯
    学习心得——刘文瑞
    学习心得——高婕
    学习心得——张坤鹏
    Mysql中文乱码 小强斋
    面试题>字符串匹配 小强斋
    选秀节目打分 小强斋
    面试题>字符串匹配 小强斋
  • 原文地址:https://www.cnblogs.com/sanshuishu/p/11024106.html
Copyright © 2020-2023  润新知