• Hadoop综合大作业


    本次作业要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363

    1.将爬虫大作业产生的csv文件上传到HDFS

    2.对CSV文件进行预处理生成无标题文本文件

     

    3.把hdfs中的文本文件最终导入到数据仓库Hive中

    4.在Hive中查看并分析数据

     

    5.用Hive对爬虫大作业产生的进行数据分析,写一篇博客描述你的分析过程和分析结果。(10条以上的查询分析)

    (1)查询总共有多少条个性签名数据

     

    分析:从查询数据中看出,我的微信好友有669个。

    (2)查询微信好友中男生和女生的数目(男sex为1,女为2)

    分析,男性好友为327。

    (3)查询微信好友中女生的数目(sex为2)

    分析:女性好友性别为282,由上可得,还有部分人没有设置性别,因为这个不是必选选项。

    (4)查询好友所在省份前10的数目

    分析:有查询数目可得,我的好友基本是广东人,因为我的社交圈在广东,被命运安排上了。

     (5)查询个性签名中有时间字段的数目

    分析:个性签名中有时间字段的好友有31个,这个比例还是相当大的,说明大家都比较注重效率,活在当下。

    (6)查询在广东的男性好友数目

    分析:我的好友中广东男性为219,所有男性好友为327,这超过了一半的比例,这是因为中国男多女少和我性别的缘故。

    (7)查询有购物字段的男生和女生数目

    分析:在查询中,有购物字段的个性签名女性比男性多两个,这也是因为女生爱购物的原因,男性比较宅。

    (8)查询好友所在城市的数目并排序

     

    分析:在我好友所在城市的数目中可以看出,广州人数多于阳江人数,这说明我大学认识的小伙伴比较多,也有很多我出生地为阳江的好友已经在广州发展。

    (9)查询好友个性签名数目并排序

    分析:从查询结果看出,活在当下、知足常乐、宁静致远、越努力越幸运、早睡早起身体好的个性签名为多数,说明我微信好友积极、勤奋、身体好。

    (10)查询有爱字段的所有个性签名

     分析:从查询结果可知,有目标的人为大部分,追求自己喜欢的事情。

    总结:通过对微信好友爬取的性别、城市、省份、个性签名信息进行分析,发现我主要与广东人交往,广州人占大多数,男性大于女性,活在当下、知足常乐、宁静致远、越努力越幸运、早睡早起身体好的个性签名为前5位个性签名字段,女生的购买力比男生大。在当下,微信成为了大家与好友进行交流的沟通方式,所以了解微信对我们相当重要。希望微信发展的越来越好。

    这次分析是基于爬取微信好友的信息,经过预处理上传到hdfs,再用hive导入到数据库,最后进行查询分析。遇到的问题为hive创建表值为NULL,由于我之前在hdfs的一个目录导入多个csv,造成读取错误,重新创建就解决了。

  • 相关阅读:
    SQL语句在数据库中可以执行在mybatis执行不了
    spring_08aop原理及案例
    spring_07使用spring的特殊bean、完成分散配置
    spring_06装配bean_2
    spring_05装配bean
    spring_03ApplicationContext三种经常用到的实现
    spring_04bean的生命周期
    spring_02工具及接口案例
    深入理解Ribbon之源码解析
    深入理解Feign之源码解析
  • 原文地址:https://www.cnblogs.com/zyx1998/p/11055751.html
Copyright © 2020-2023  润新知