• Hadoop——项目经验


    一、HDFS存储多目录

    (1)给Linux系统新增加一块硬盘

    参考:https://www.cnblogs.com/yujianadu/p/10750698.html

    (2)生产环境服务器磁盘情况

    (3)在hdfs-site.xml文件中配置多目录,注意新挂载磁盘的访问权限问题

    HDFS的DataNode节点保存数据的路径由dfs.datanode.data.dir参数决定,其默认值为file://${hadoop.tmp.dir}/dfs/data,若服务器有多个磁盘,必须对该参数进行修改。如服务器磁盘如上图所示,则该参数应修改为如下的值。

    <property>
        <name>dfs.datanode.data.dir</name>
    <value>file:///dfs/data1,file:///hd2/dfs/data2,file:///hd3/dfs/data3,file:///hd4/dfs/data4</value>
    </property>

    注意:因为每台服务器节点的磁盘情况不同,所以这个配置配完之后,不需要分发

    二、集群数据均衡

    2.1 节点间数据均衡

    (1)开启数据均衡命令

    start-balancer.sh -threshold 10

    对于参数10,代表的是集群中各个节点的磁盘空间利用率相差不超过10%,可根据实际情况进行调整。

    (2)停止数据均衡命令

    stop-balancer.sh

    注意:由于HDFS需要启动单独的Rebalance Server来执行Rebalance操作,所以尽量不要在NameNode上执行start-balancer.sh,而是找一台比较空闲的机器。

    2.2 磁盘间数据均衡

    (1)生成均衡计划(我们只有一块磁盘,不会生成计划)

    hdfs diskbalancer -plan hadoop103

    (2)执行均衡计划

    hdfs diskbalancer -execute hadoop103.plan.json

    (3)查看当前均衡任务的执行情况

    hdfs diskbalancer -query hadoop103

    (4)取消均衡任务

    hdfs diskbalancer -cancel hadoop103.plan.json

    三、支持LZO压缩配置

    LZO 是致力于解压速度的一种数据压缩算法,LZO 是 Lempel-Ziv-Oberhumer 的缩写。这个算法是无损算法,参考实现程序是线程安全的。 实现它的一个自由软件工具是lzop。最初的库是用 ANSI C 编写、并且遵从 GNU通用公共许可证发布的。LZO 有用于 Perl、Python 以及 Java 的各种版本。代码版权的所有者是 Markus F. X. J. Oberhumer。

    3.1 hadoop-lzo编译

    hadoop本身并不支持lzo压缩,故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译,编译步骤如下。

    环境准备

    maven(下载安装,配置环境变量,修改sitting.xml加阿里云镜像)
    gcc-c++
    zlib-devel
    autoconf
    automake
    libtool
    通过yum安装即可,yum -y install gcc-c++ lzo-devel zlib-devel autoconf automake libtool

    下载、安装并编译LZO

    wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.10.tar.gz
    
    tar -zxvf lzo-2.10.tar.gz
    
    cd lzo-2.10
    
    ./configure -prefix=/usr/local/hadoop/lzo/
    
    make
    
    make install

    编译hadoop-lzo源码

    下载hadoop-lzo的源码,下载地址:https://github.com/twitter/hadoop-lzo/archive/master.zip

    解压之后,修改pom.xml

     <hadoop.current.version>3.1.3</hadoop.current.version>

    声明两个临时环境变量

         export C_INCLUDE_PATH=/usr/local/hadoop/lzo/include
         export LIBRARY_PATH=/usr/local/hadoop/lzo/lib 

    编译
        进入hadoop-lzo-master,执行maven编译命令

        mvn package -Dmaven.test.skip=true

    进入target,hadoop-lzo-0.4.21-SNAPSHOT.jar 即编译成功的hadoop-lzo组件

    3.2 hadoop-lzo安装、测试

    将编译好后的hadoop-lzo-0.4.20.jar 放入hadoop-3.1.3/share/hadoop/common/

    [atguigu@hadoop102 common]$ pwd
    /opt/module/hadoop-3.1.3/share/hadoop/common
    [atguigu@hadoop102 common]$ ls
    hadoop-lzo-0.4.20.jar

    同步hadoop-lzo-0.4.20.jar到hadoop103、hadoop104

    [atguigu@hadoop102 common]$ xsync hadoop-lzo-0.4.20.jar

    core-site.xml增加配置支持LZO压缩

    <configuration>
        <property>
            <name>io.compression.codecs</name>
            <value>
                org.apache.hadoop.io.compress.GzipCodec,
                org.apache.hadoop.io.compress.DefaultCodec,
                org.apache.hadoop.io.compress.BZip2Codec,
                org.apache.hadoop.io.compress.SnappyCodec,
                com.hadoop.compression.lzo.LzoCodec,
                com.hadoop.compression.lzo.LzopCodec
            </value>
        </property>
    
        <property>
            <name>io.compression.codec.lzo.class</name>
            <value>com.hadoop.compression.lzo.LzoCodec</value>
        </property>
    </configuration>

    同步core-site.xml到hadoop103、hadoop104

    [atguigu@hadoop102 hadoop]$ xsync core-site.xml

    启动及查看集群

    [atguigu@hadoop102 hadoop-3.1.3]$ sbin/start-dfs.sh
    [atguigu@hadoop103 hadoop-3.1.3]$ sbin/start-yarn.sh

    测试-数据准备

    [atguigu@hadoop102 hadoop-3.1.3]$ hadoop fs -mkdir /input
    [atguigu@hadoop102 hadoop-3.1.3]$ hadoop fs -put README.txt /input

    测试-压缩

    [atguigu@hadoop102 hadoop-3.1.3]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount -Dmapreduce.output.fileoutputformat.compress=true -Dmapreduce.output.fileoutputformat.compress.codec=com.hadoop.compression.lzo.LzopCodec  /input /output

    生成了对应的lzo压缩文件

    四、LZO创建索引

    4.1 创建LZO文件的索引

    LZO压缩文件的可切片特性依赖于其索引,故我们需要手动为LZO压缩文件创建索引。若无索引,则LZO文件的切片只有一个。

    hadoop jar /path/to/your/hadoop-lzo.jar com.hadoop.compression.lzo.DistributedLzoIndexer big_file.lzo

    4.2 测试

    (1)将bigtable.lzo(200M)上传到集群的根目录

    [atguigu@hadoop102 module]$ hadoop fs -mkdir /input
    [atguigu@hadoop102 module]$ hadoop fs -put bigtable.lzo /input

    (2)执行wordcount程序

    [atguigu@hadoop102 module]$ hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount -Dmapreduce.job.inputformat.class=com.hadoop.mapreduce.LzoTextInputFormat /input /output1

    明明是lzo文件,却没有支持切片?

    (3)对上传的LZO文件建索引

    [atguigu@hadoop102 module]$ hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/common/hadoop-lzo-0.4.20.jar  com.hadoop.compression.lzo.DistributedLzoIndexer /input/bigtable.lzo

    (4)再次执行WordCount程序

    [atguigu@hadoop102 module]$ hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount -Dmapreduce.job.inputformat.class=com.hadoop.mapreduce.LzoTextInputFormat /input /output2

    4.3 问题

    注意:如果以上任务,在运行过程中报如下异常

    Container [pid=8468,containerID=container_1594198338753_0001_01_000002] is running 318740992B beyond the 'VIRTUAL' memory limit. Current usage: 111.5 MB of 1 GB physical memory used; 2.4 GB of 2.1 GB virtual memory used. Killing container.
    Dump of the process-tree for container_1594198338753_0001_01_000002 :

    解决办法:在hadoop102的/opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml文件中增加如下配置,然后分发到hadoop103、hadoop104服务器上,并重新启动集群。
    <!--是否启动一个线程检查每个任务正使用的虚拟内存量,如果任务超出分配值,则直接将其杀掉,默认是true -->

    <property>
       <name>yarn.nodemanager.vmem-check-enabled</name>
       <value>false</value>
    </property>

    五、基准测试

    在企业中非常关心每天从Java后台拉取过来的数据,需要多久能上传到集群?消费者关心多久能从HDFS上拉取需要的数据?

    为了搞清楚HDFS的读写性能,生产环境上非常需要对集群进行压测。

    HDFS的读写性能主要受网络和磁盘影响比较大。为了方便测试,将hadoop102、hadoop103、hadoop104虚拟机网络都设置为100mbps。

    100Mbps单位是bit;10M/s单位是byte ; 1byte=8bit,100Mbps/8=12.5M/s。

    测试网速:
    (1)来到hadoop102的/opt/module目录,创建一个

    [atguigu@hadoop102 software]$ python -m SimpleHTTPServer

     开启一个Python服务。

    (2)在Web页面上访问
    hadoop102:8000

     点击一个文件下载,查看下载速度

     下载速度符合预期

    5.1 测试HDFS写性能

    (1)写测试底层原理



    (2)测试内容:向HDFS集群写10个128M的文件

    [atguigu@hadoop102 mapreduce]$ hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -write -nrFiles 10 -fileSize 128MB

    2021-02-09 10:43:16,853 INFO fs.TestDFSIO: ----- TestDFSIO ----- : write
    2021-02-09 10:43:16,854 INFO fs.TestDFSIO:             Date & time: Tue Feb 09 10:43:16 CST 2021
    2021-02-09 10:43:16,854 INFO fs.TestDFSIO:         Number of files: 10
    2021-02-09 10:43:16,854 INFO fs.TestDFSIO:  Total MBytes processed: 1280
    2021-02-09 10:43:16,854 INFO fs.TestDFSIO:       Throughput mb/sec: 1.61
    2021-02-09 10:43:16,854 INFO fs.TestDFSIO:  Average IO rate mb/sec: 1.9
    2021-02-09 10:43:16,854 INFO fs.TestDFSIO:   IO rate std deviation: 0.76
    2021-02-09 10:43:16,854 INFO fs.TestDFSIO:      Test exec time sec: 133.05
    2021-02-09 10:43:16,854 INFO fs.TestDFSIO:

    注意:nrFiles n为生成mapTask的数量,生产环境一般可通过hadoop103:8088查看CPU核数,设置为(CPU核数 -  1)

    这里每台虚拟机都是4核的,三台共12核,测试程序运行还要占用一个核,所以设置成11或10,较为恰当。

    • Number of files:生成mapTask数量,一般是集群中(CPU核数 - 1),我们测试虚拟机就按照实际的物理内存-1分配即可。(目标,让每个节点都参与测试)
    • Total MBytes processed:单个map处理的文件大小
    • Throughput mb/sec:单个mapTak的吞吐量

    计算方式:处理的总文件大小/每一个mapTask写数据的时间累加
    集群整体吞吐量:生成mapTask数量*单个mapTak的吞吐量

    • Average IO rate mb/sec::平均mapTak的吞吐量

    计算方式:每个mapTask处理文件大小/每一个mapTask写数据的时间 全部相加除以task数量

    • IO rate std deviation:方差、反映各个mapTask处理的差值,越小越均衡

    注意:如果测试过程中,出现异常
    ①可以在yarn-site.xml中设置虚拟内存检测为false

    <!--是否启动一个线程检查每个任务正使用的虚拟内存量,如果任务超出分配值,则直接将其杀掉,默认是true -->
    <property>
         <name>yarn.nodemanager.vmem-check-enabled</name>
         <value>false</value>
    </property>

    ②分发配置并重启Yarn集群

    (3)测试结果分析
        ①由于副本1就在本地,所以该副本不参与测试

    一共参与测试的文件:10个文件 * 2个副本 = 20个
    压测后的速度:1.61
    实测速度:1.61M/s * 20个文件 ≈ 32M/s
    三台服务器的带宽:12.5 + 12.5 + 12.5 ≈ 30m/s
    所有网络资源都已经用满。

    如果实测速度远远小于网络,并且实测速度不能满足工作需求,可以考虑采用固态硬盘或者增加磁盘个数。

      ②如果客户端不在集群节点,那就三个副本都参与计算

    5.2 测试HDFS读性能

    (1)测试内容:读取HDFS集群10个128M的文件

    [atguigu@hadoop102 mapreduce]$ hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -read -nrFiles 10 -fileSize 128MB

    2021-02-09 11:34:15,847 INFO fs.TestDFSIO: ----- TestDFSIO ----- : read
    2021-02-09 11:34:15,847 INFO fs.TestDFSIO:             Date & time: Tue Feb 09 11:34:15 CST 2021
    2021-02-09 11:34:15,847 INFO fs.TestDFSIO:         Number of files: 10
    2021-02-09 11:34:15,847 INFO fs.TestDFSIO:  Total MBytes processed: 1280
    2021-02-09 11:34:15,848 INFO fs.TestDFSIO:       Throughput mb/sec: 200.28
    2021-02-09 11:34:15,848 INFO fs.TestDFSIO:  Average IO rate mb/sec: 266.74
    2021-02-09 11:34:15,848 INFO fs.TestDFSIO:   IO rate std deviation: 143.12
    2021-02-09 11:34:15,848 INFO fs.TestDFSIO:      Test exec time sec: 20.83

    (2)删除测试生成数据

    [atguigu@hadoop102 mapreduce]$ hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar TestDFSIO -clean

    (3)测试结果分析:为什么读取文件速度大于网络带宽?由于目前只有三台服务器,且有三个副本,数据读取就近原则,相当于都是读取的本地磁盘数据,没有走网络。

    5.3 使用Sort程序评测MapReduce

    (1)使用RandomWriter来产生随机数,每个节点运行10个Map任务,每个Map产生大约1G大小的二进制随机数

    [atguigu@hadoop102 mapreduce]$ hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar randomwriter random-data

    (2)执行Sort程序

    [atguigu@hadoop102 mapreduce]$ hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar sort random-data sorted-data

    (3)验证数据是否真正排好序了

    [atguigu@hadoop102 mapreduce]$
    hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar testmapredsort -sortInput random-data -sortOutput sorted-data

    六、Hadoop参数调优

    6.1 HDFS参数调优hdfs-site.xml

    The number of Namenode RPC server threads that listen to requests from clients. If dfs.namenode.servicerpc-address is not configured then Namenode RPC server threads listen to requests from all nodes.

    NameNode有一个工作线程池,用来处理不同DataNode的并发心跳以及客户端并发的元数据操作。

    对于大集群或者有大量客户端的集群来说,通常需要增大参数dfs.namenode.handler.count的默认值10。

    <property>
        <name>dfs.namenode.handler.count</name>
        <value>10</value>
    </property>

    dfs.namenode.handler.count=

    比如集群规模为8台时,此参数设置为41。可通过简单的python代码计算该值,代码如下。

    6.2 YARN参数调优yarn-site.xml

    (1)情景描述:总共7台机器,每天几亿条数据,数据源->Flume->Kafka->HDFS->Hive

    面临问题:数据统计主要用HiveSQL,没有数据倾斜,小文件已经做了合并处理,开启的JVM重用,而且IO没有阻塞,内存用了不到50%。但是还是跑的非常慢,而且数据量洪峰过来时,整个集群都会宕掉。基于这种情况有没有优化方案。

    (2)解决办法:
    NodeManager内存和服务器实际内存配置尽量接近,如服务器有128g内存,但是NodeManager默认内存8G,不修改该参数最多只能用8G内存。NodeManager使用的CPU核数和服务器CPU核数尽量接近。

    ①yarn.nodemanager.resource.memory-mb    NodeManager使用内存数

    ②yarn.nodemanager.resource.cpu-vcores    NodeManager使用CPU核数

  • 相关阅读:
    Finalize,Dispose,SuppressFinalize
    防火防盗防微软,Firefox发布插件自动检测服务
    Nginx的Rewrite设置及示例
    Linux游戏开发包 ClanLib 2.1.0 发布
    HTTP协议详解(真的很经典)
    Linux on POWER:发行版迁移和二进制兼容性考虑事项
    映射网络驱动器VBS脚本
    [笔记] 使用 opcache 优化生产环境PHP
    2020最新版MySQL数据库面试题(三)
    请注意,面试中有这7个行为肯定会被拒绝!
  • 原文地址:https://www.cnblogs.com/wkfvawl/p/15835169.html
Copyright © 2020-2023  润新知