作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363
此次作业是把本学期的两个重要的作业联合起来——用HDFS去处理爬虫大作业爬下来的数据。
作业要求:
1.将爬虫大作业产生的csv文件上传到HDFS
2.对CSV文件进行预处理生成无标题文本文件
3.把hdfs中的文本文件最终导入到数据仓库Hive中
4.在Hive中查看并分析数据
实际操作
1.csv文件上传到HDFS
2.对csv文件进行预处理生成无标题,无符号的分开的文件
3.启动hadoop
4.启动live,并在live创建表hkj
5.把zic.csv的内容放到创建的hkj表里面。
6.完成后就可以对数据进行分析。
7.查询本次数据的条数(258)
8.查询是极力推荐的人数(58)
9.出现“黑人”词语的评论条数(56)
10.出现“白人”词报的评论条数(43)
11.点赞超过10000的评论(4)
12.看完评价觉得不推荐的(8)
通过这次融合,明白了两个作业的共同作用。
在分析数据之后,得出这部片还是比较广受好评的。然后大家讨论比较多的内容也正是电影想突出的主题。种族歧视与肤色歧视是从很久很久就根深蒂固在一些地方的人的骨子里。我在爬了电影评论之后也去看了电影。看了之后对一直没有什么感觉的种族歧视终于有了很大的感触。很很远的地方,还依然上演着这一出出悲剧。评论多赞的那句,“让人印象最深的片段是他们的车在南部的乡间小路上抛锚,和田里劳作的黑奴对视的那一幕,无声却发出巨响。”我觉得也是觉得很震撼,导演是怎么想出这种利用这无声的对别对人心灵的冲击。
可惜学艺不精,只爬到了两百多条。无法对其深入分析,还有很多要继续去学的。