• HiBench学习笔记


    HiBench资源及教程:https://github.com/intel-hadoop/HiBench 

    介绍:

    Hadoop新人

    环境 linux

    该笔记针对英语弱鸡&自己在使用过程用遇到的问题的记录。

    步骤:

    首先创建一个文件夹HiBench:mkdir HiBench

    cd HiBench

    git clone https://github.com/intel-hadoop/HiBench

    先介绍一下我的测试集群的环境:

    master 
    resourcemanager 
    datanode1
    datanode2
    datanode3
     

    概述

    HiBench是用来在速度方面评估不同的大数据框架的,它包括一系列的Hadoop,Spark,streaming工作负载,包括sort,wordcount,TeraSort, Sleep, SQL, PageRank, Nutch indexing, Bayes, Kmeans, NWeight and enhanced DFSIO,等。同样也为park Streaming, Flink, Storm and Gearpump提供工作负载。

    Getting Started

    • Build HiBench
    • Run HadoopBench
    • Run SparkBench
    • Run StreamingBench (Spark streaming, Flink, Storm, Gearpump)

    Build HiBench

    运行mvn -Dscala=2.11 clean package 是Build All,即建立HiBench的所有模块。

    可能遇到的问题:

    1.bash: mvn : command not found

    原因:你的系统上没有安装maven

    解决方法:去官网下载

    2.执行过程中出现失败

    原因:可能是网络的问题吧,我也不是很清楚

    解决方法:重复执行该命令,最后出现build succeed 即可。

    Run HadoopBench

    1.确保:

    • Python 2.x(>=2.6) is required.

    • Supported Hadoop version: Apache Hadoop 2.x, CDH5.x, HDP

    • Build HiBench according to build HiBench.

    • Start HDFS, Yarn in the cluster.

    2.创建并修改配置文件hadoop.conf

    在HiBench的conf下:mkdir hadoop.conf

    在HiBench下: cp conf/hadoop.conf.template conf/hadoop.conf

    然后修改配置文件: vim hadoop.conf

    按照下图的规范:

    注意:

    1.hibench.hadoop.home是你本机上hadoop的安装路径

    2.在配置hibench.hdfs.master的时候我傻傻地写了hdfs://localhost:8020/user/username。。。导致后来运行脚本一直不成功。

    首先localhost是你的机器的IP,也可以在命令行输入hostname,用hostname来代替localhost即可。

    后面的端口号也不是8020,要根据本机的端口,在命令行输入vi ~/local/hadoop-2.7.3/etc/hadoop/core-site.xml,可以观察到

    hdfs://master:9000代替hdfs://localhost:8020,

    username写的是你把数据存在了usr下的那个文件里

    我配置完的情况是:

    接下来就是在HiBench下运行脚本

    bin/workloads/micro/wordcount/prepare/prepare.sh
     bin/workloads/micro/wordcount/hadoop/run.sh
    如果前面都没有问题的话,是能正常执行的。

    执行完成以后,你可以在HiBench/report/hibench.report中查看 workload name, execution duration, data size, throughput per cluster, throughput per node等信息


    数据规模也是可以设置的:修改conf/hibench.conf里面的hibench.scale.profile项。


    未完待续。。。
  • 相关阅读:
    JSP获取input(含正则表达式)
    Computability 7: Exercises
    Network 5: Data Link Layer
    PRML 7: The EM Algorithm
    PRML 6: SVD and PCA
    PRML 5: Kernel Methods
    PRML 4: Generative Models
    Computability 6: Reducibility
    Distributed Hash Table
    Network 4: Network Layer
  • 原文地址:https://www.cnblogs.com/PJQOOO/p/6899988.html
Copyright © 2020-2023  润新知