本次作业要求来自:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363
1.将爬虫大作业产生的csv文件上传到HDFS
2.对CSV文件进行预处理生成无标题文本文件
3.把hdfs中的文本文件最终导入到数据仓库Hive中
4.在Hive中查看并分析数据
5.用Hive对爬虫大作业产生的进行数据分析,写一篇博客描述你的分析过程和分析结果。(10条以上的查询分析)
(1)查询总共有多少条个性签名数据
分析:从查询数据中看出,我的微信好友有669个。
(2)查询微信好友中男生和女生的数目(男sex为1,女为2)
分析,男性好友为327。
(3)查询微信好友中女生的数目(sex为2)
分析:女性好友性别为282,由上可得,还有部分人没有设置性别,因为这个不是必选选项。
(4)查询好友所在省份前10的数目
分析:有查询数目可得,我的好友基本是广东人,因为我的社交圈在广东,被命运安排上了。
(5)查询个性签名中有时间字段的数目
分析:个性签名中有时间字段的好友有31个,这个比例还是相当大的,说明大家都比较注重效率,活在当下。
(6)查询在广东的男性好友数目
分析:我的好友中广东男性为219,所有男性好友为327,这超过了一半的比例,这是因为中国男多女少和我性别的缘故。
(7)查询有购物字段的男生和女生数目
分析:在查询中,有购物字段的个性签名女性比男性多两个,这也是因为女生爱购物的原因,男性比较宅。
(8)查询好友所在城市的数目并排序
分析:在我好友所在城市的数目中可以看出,广州人数多于阳江人数,这说明我大学认识的小伙伴比较多,也有很多我出生地为阳江的好友已经在广州发展。
(9)查询好友个性签名数目并排序
分析:从查询结果看出,活在当下、知足常乐、宁静致远、越努力越幸运、早睡早起身体好的个性签名为多数,说明我微信好友积极、勤奋、身体好。
(10)查询有爱字段的所有个性签名
分析:从查询结果可知,有目标的人为大部分,追求自己喜欢的事情。
总结:通过对微信好友爬取的性别、城市、省份、个性签名信息进行分析,发现我主要与广东人交往,广州人占大多数,男性大于女性,活在当下、知足常乐、宁静致远、越努力越幸运、早睡早起身体好的个性签名为前5位个性签名字段,女生的购买力比男生大。在当下,微信成为了大家与好友进行交流的沟通方式,所以了解微信对我们相当重要。希望微信发展的越来越好。
这次分析是基于爬取微信好友的信息,经过预处理上传到hdfs,再用hive导入到数据库,最后进行查询分析。遇到的问题为hive创建表值为NULL,由于我之前在hdfs的一个目录导入多个csv,造成读取错误,重新创建就解决了。