• 菜鸟学IT之Hadoop综合大作业


    Hadoop综合大作业


     

    作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363

    1.将爬虫大作业产生的csv文件上传到HDFS

    • 爬取豆瓣网战狼2电影的影评数据

    • 把爬取到的csv文件存放到ubuntn系统中,并创建存放的文件夹bigdatacase、dataset:

    • 把下载好的影评test.csv文件文本拷贝到dataset目录下并查看文件

    • 查看文件的前五条数据

    • 删除表头

    2.对CSV文件进行预处理生成无标题文本文件

    每个字段用 隔开,这里有7个字段。

    • 把处理后文件保存到txt文件中

    • 启动hadoop

    3.把hdfs中的文本文件最终导入到数据仓库Hive中

    • 在HDFS上建立/bigdatacase/dataset文件夹,将文件上传

     

    • 测试查看存放到hdfs上test文件是否成功

    • 启动mysql

    4.在Hive中查看并分析数据

    • 创建bdlad库

    5.用Hive对爬虫大作业产生的进行数据分析,写一篇博客描述你的分析过程和分析结果。(10条以上的查询分析)

    由于数据库会自动加序号一列,所以在配置文件哪里修改一下文件,不要第一列。即($1)不需要了。

    • 重新载入修改好文件test并创建表,并查看前十条数据

    • 统计给分力荐的人数

    • 统计给分为还行的人数

    • 统计给分为较差的人数

    结论:由上述的评价中,影迷们对战狼2也是给好评居多,对战狼2也是喜欢的。

    • 查出uid不重复的数据有多少条

    分析:爬取去了1500条数据(没有使用代理IP),不重复率100%。

    查询在'2019/3/1'到'2019/4/1'时间段评论的人数

    • 查询在'2019/1/1'到'2019/3/1'时间段评论的人数

    分析:随着时间发展,战狼2的热度逐渐减退。影迷也是在首播观看战狼2的人数居多,这才是真爱。

    • 查询评论点赞前十的小伙伴是给出什么评分

    分析:由数据可以看出,点赞最多的前十评论。给出的评价都是相对来说是好评,说明这个数据是好评。

    • 统计评论里面人们给出的评分

    分析:由数据可以得出,影迷们给出的评价都是推荐观看战狼2,经典你值得拥有。

  • 相关阅读:
    软件工程网络15结对编程作业(201521123111 陈伟泽)
    软件工程网络15个人阅读作业2(201521123111 陈伟泽)
    软件工程网络15个人阅读作业1(201521123111 陈伟泽)
    Java课程设计——猜数游戏(201521123111 陈伟泽)
    java课程设计--猜数字(团队博客)
    201521123111《Java程序设计》第14周学习总结
    201521123111《Java程序设计》第13周学习总结
    个人作业5
    ,软工第四次作业
    第三次作业
  • 原文地址:https://www.cnblogs.com/JGaoLin/p/11055771.html
Copyright © 2020-2023  润新知