• Hadoop综合大作业


    Hadoop综合大作业

    作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363

    Hadoop综合大作业 要求:

    1.将爬虫大作业产生的csv文件上传到HDFS

     3.把hdfs中的文本文件最终导入到数据仓库Hive中

     

     4.删除文件第一行记录,即字段名称

    5.用Hive对爬虫大作业产生的进行数据分析,写一篇博客描述你的分析过程和分析结果。(10条以上的查询分析)

    (1)查询前二十条信息的评论时间

    (2)查询前二十条评论点赞数

     

    (3)查询前二十条评论的用户

    (4)查询前20个用户的观看情况

    (5)查询前20个用户的评分情况

    (6)查询前3条评论

    (7)查询不重复id的评论数

    (8)查询不重复昵称的评论数

    总结分析:第一次在hadoop上分析数据,估计很容易发生一些不知名的错误,通过对在豆瓣对电影《流浪地球》的相关数据分析可以发现:网友对《流浪地球》评分相当高,有65%的推荐率和25%的力荐率。从词云可以看出来《流浪地球》的评论中科幻电影,中国,科幻,国产出现频率很高,可以看出网友把这种高质量的科幻片和中国,国产联系起来。因此网友应该对于国产科幻片开始有一定的信心。最后从数据分析来看《流浪地球》是值得一看的国产科幻片。

  • 相关阅读:
    tcpdump命令
    浅谈  curl命令
    MongoDB下rs.status()命令
    Device mapper存储方式
    top命令
    cat命令汇总整理
    centos7搭建nginx日志
    CentOS7 防火墙(firewall)的操作命令(转)
    服务器的硬件组成
    shell随机生成10个文件
  • 原文地址:https://www.cnblogs.com/LRZluck/p/11060283.html
Copyright © 2020-2023  润新知