一、hive用本地文件进行词频统计
1.准备本地txt文件
2.启动hadoop,启动hive
3.创建数据库,创建文本表
#查看数据库
show databases;
#创建数据库
create database if not exists hive;
#查看是否成功创建数据库
show databases;
4.映射本地文件的数据到文本表中
#查看表
use hive;
show tables;
#创建表
create table if not exists pctext(line string);
#查看是否成功创建表
show tables;
#映射本地文件的数据到文本表中
load data local inpath '/home/hadoop/HLH/hlh1.txt' into table pctext;
#查看映射内容
select * from pctext;
5.hql语句进行词频统计交将结果保存到结果表中。
#词频统计
select split(line,'') as word from pctext;
select explod(split(line,'')) as word from pctext;
6.查看统计结果
#查看统计结果
select word,count(1) as count from (select explode(split(line,'')) as word from pctext) w group by word order by word;
二、hive用HDFS上的文件进行词频统计
1.准备电子书或其它大的文本文件
2.将文本文件上传到HDFS上
#上传本地文件
hdfs dfs -put HLH HLH
#查看上传结果
hdfs dfs -ls HLH
3.创建文本表
#创建数据表
create table if not exists HLH(line string)
#查看数据表是否创建成功
show tables;