hadoop综合大作业

hadoop综合大作业
启动Hadoop
```
start-all.sh
```
把本地文件上传到hdfs文件系统，然后查看（之前已经把下载的英文小说上传到hdfs了）
```
usr/local/hadoop/bin/hdfs dfs -put ~/wc/w.txt /user/hadoop/input

usr/local/hadoop/bin/hdfs dfs -ls input
```
启动hive
```
hive
```
建个表text
```
create table text(line string);
```
把hdfs文件系统中input文件夹里的文本文件load进去,写hiveQL命令统计
```
load data inpath 'input' overwrite into table text;


create table word_count as
select word,count(1) as count from
(select explode(split(line,' '))as word from text) w
group by word
order by word;
```
使用select命令查看结果

2.用Hive对爬虫大作业产生的csv文件进行数据分析，写一篇博客描述你的分析过程和分析结果。

我爬取的是ImportNew网站里的文章然后进行词频统计后放到jieba.csv文件中：

先把爬取的文件上传到邮箱，然后在虚拟机上下载并放到本地的wc文件中：

启动hadoop：

将本地系统wc文件夹里的books.csv上传至hdfs文件系统中：

启动hive：

对csv文件转换为txt文件

建个表text2

把hdfs文件系统中input文件夹里的文本文件load进去,写hiveQL命令统计

使用select命令查看结果
相关阅读:
子查询
 多表连接
 类型转换和其他函数
 亲测！Jquery2.0不支持IE8-了
 Sass结合Modernizr的使用方法
 子元素绝对定位撑不开父元素的解决方法
 ajax withCredentials在firefox下问题的解释
 记录遇到的IE8兼容性问题汇总
 对于requirejs AMD模块加载的理解
 requirejs 小结
原文地址：https://www.cnblogs.com/god1924668503/p/9066636.html