• hadoop综合大作业


    启动Hadoop

    start-all.sh

    把本地文件上传到hdfs文件系统,然后查看(之前已经把下载的英文小说上传到hdfs了)

    usr/local/hadoop/bin/hdfs dfs -put ~/wc/w.txt /user/hadoop/input
    
    usr/local/hadoop/bin/hdfs dfs -ls input

    启动hive

    hive

    建个表text

    create table text(line string);

    把hdfs文件系统中input文件夹里的文本文件load进去,写hiveQL命令统计

    load data inpath 'input' overwrite into table text;
    
    
    create table word_count as
    select word,count(1) as count from
    (select explode(split(line,' '))as word from text) w
    group by word
    order by word;

    使用select命令查看结果

    2.用Hive对爬虫大作业产生的csv文件进行数据分析,写一篇博客描述你的分析过程和分析结果。

    我爬取的是ImportNew网站里的文章然后进行词频统计后放到jieba.csv文件中:

    先把爬取的文件上传到邮箱,然后在虚拟机上下载并放到本地的wc文件中:

    启动hadoop:

    将本地系统wc文件夹里的books.csv上传至hdfs文件系统中:

    启动hive:

    对csv文件转换为txt文件

    建个表text2

    把hdfs文件系统中input文件夹里的文本文件load进去,写hiveQL命令统计

    使用select命令查看结果

  • 相关阅读:
    子查询
    多表连接
    类型转换和其他函数
    亲测!Jquery2.0不支持IE8-了
    Sass结合Modernizr的使用方法
    子元素绝对定位撑不开父元素的解决方法
    ajax withCredentials在firefox下问题的解释
    记录遇到的IE8兼容性问题汇总
    对于requirejs AMD模块加载的理解
    requirejs 小结
  • 原文地址:https://www.cnblogs.com/god1924668503/p/9066636.html
Copyright © 2020-2023  润新知