Hadoop综合大作业

Hadoop综合大作业
Hadoop综合大作业要求：

1.用Hive对爬虫大作业产生的文本文件（或者英文词频统计下载的英文长篇小说）进行词频统计。

我下载的是一篇英文长篇小说《教父》,字数为个，

将文章（godfather.txt）放在了wc文件中：

启动hadoop:
```
start-all.sh
jps
```
　　

文件上传至hdfs
```
hdfs dfs -put ./godfather.txt /bigdatacase/dataset
hdfs dfs -ls /bigdatacase/dataset
```
　　

启动hive
```
hive
```
创建原始文档表
```
create table novel(long string);
```
　　

导入文件内容到表novel
```
load data inpath '/bigdatacase/dataset/godfather.txt' overwrite into table novel;
```
　　

进行词频统计并放入表novelcount表中
```
create table novelcount as select word，count(1) from (select(long,' ')) as word from novel) word group by word;
```
查看统计结果（前20个）
```
select * from novelcount limit 20
```
2.用Hive对爬虫大作业产生的csv文件进行数据分析，写一篇博客描述你的分析过程和分析结果。

爬虫大作业爬取的结果是如图所示

将统计好的文件number.txt和number.csv放置wc文件夹中

启动hdfs
```
start-all.sh
jps
```
将文件上传至hdfs,并显示前十条

启动mysql

启动hive

创建数据库
```
create database numbercount;
```
　　

创建表

导入数据

查看数据
相关阅读:
学习ASP.NET MVC3（5） Controller
关于测试
 [JAVA SE] Java反射机制
 Windows 8 的软件开发架构
 Servlet生命周期与工作原理
 展望未来，总结过去10年的程序员生涯，给程序员小弟弟小妹妹们的一些总结性忠告（转载）
JAVA小游戏代码（剪刀石头布）
[JAVA SE] JSP中pageEncoding和charset区别，中文乱码解决方案
 我是工程师，不是编译器
 自己对三层架构理论的理解
原文地址：https://www.cnblogs.com/zhiling123/p/9076828.html