Hadoop综合大作业 - 润新知

Hadoop综合大作业

1.将爬虫大作业产生的csv文件上传到HDFS

此处选取的是AllSinger.csv文件，共计35084条数据

创建文件夹

启动hadoop

在hdfs上创建文件

将文件上存到hdfs

2.对CSV文件进行预处理生成无标题文本文件

编辑pre_deal.sh文件进行数据的取舍处理

使得pre_deal.sh中的内容生效。

3.把hdfs中的文本文件最终导入到数据仓库Hive中

创建数据库dblab

创建表database_hzj并把hdfs中/database/data/目录下的数据加载到表中

4.在Hive中查看并分析数据

5.用Hive对爬虫大作业产生的进行数据分析，写一篇博客描述你的分析过程和分析结果。（10条以上的查询分析）

1.网易云音乐里歌手姓李的人数

2..歌手信息里面华语歌手个数

3.歌手信息里面华语男歌手个数

4.歌手信息里面欧美歌手个数

5.歌手信息里面欧美女歌手个数

6.查找有没有陈奕迅

7.歌手信息里面欧美男歌手个数

8.歌手信息里面欧美组合个数

9.歌手信息里面华语女歌手个数

10.歌手信息里面华语组合个数
相关阅读:
Python 脚本退出
 数组对象从大到小:
小程序中使用倒计时
 倒计时
 将数字转化为汉字
 turn.js中文API 写一个翻页效果的参数详细解释
 前端数据可视化echarts.js使用指南
 视频及MP3 播放浅析 Jplayer参数详细
 https://blog.csdn.net/cddcj/article/details/52193932
让一些旧浏览器变牛逼的库 ========兼容性
原文地址：https://www.cnblogs.com/hzj111/p/11017348.html

Copyright © 2020-2023 润新知