• Hadoop综合大作业


    作业要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363

    1.将爬虫大作业产生的csv文件上传到HDFS

    (1)在HDFS里创建一个目录用于存放待分析的大数据文件。

    (2)把文件上传到HDFS。

     

    2.对CSV文件进行预处理生成无标题文本文件

     (1)创建一个pre_deal.sh脚本文件对csv文件进行预处理,为数据编号。

    (2)由csv文件转换为无标题的文本文件

     

    3.把hdfs中的文本文件最终导入到数据仓库Hive中

    (1)启动Hadoop系统,进入Hive数据仓库创建数据库

    (2)创建一个comments表把数据导入到Hive中

    4.在Hive中查看并分析数据

    5.用Hive对爬虫大作业产生的进行数据分析,写一篇博客描述你的分析过程和分析结果。(10条以上的查询分析)

    • 查询数据总数。

    • 统计不重复的总数,即用户总数

    • 查看前20条评论的内容

     

    • 统计被点赞过的评论的数量。

    • 统计点赞超过100的评论的数量。

     

    • 查看点赞数前10的评论内容及点赞数量

    •  统计有被回复的评论数

     

    •  查看内容提到高考的评论

    • 查看内容提到开通会员的评论

     

    •  统计评论中开通会员的用户数

     

    •  统计内容包含喜欢,好听的评论数。

     

    • 查看喜欢这首歌的评论内容

    总结:评论总数为4015,用户数为3398,其中很多用户认为歌曲很励志,许多临近高考的听众,同时也有很多听众在评论中提到歌曲很好听,很喜欢,甚至为了这一首歌开通了会员。点赞数量最多的用户香喷喷的肉包拥有1950000个点赞,评论内容为:这歌又叫做《有本事你翻唱啊》、《拒绝大合唱的歌》、《调高到唱背过气的歌》、《歌词不会哼哼过去的歌》。

  • 相关阅读:
    alpha冲刺3
    alpha冲刺2
    alpha冲刺1
    软工第七次作业
    软工第八次作业
    软工第六次作业
    软工第五次作业
    软工第四次作业
    Alpha冲刺一 (2/10)
    Alpha冲刺一(1/10)
  • 原文地址:https://www.cnblogs.com/leo0724/p/11061050.html
Copyright © 2020-2023  润新知