• hadoop 支持 LZO 压缩配置


    1)hadoop 本身并不支持 lzo 压缩,故需要使用 twitter 提供的 hadoop-lzo 开源组件。hadoop
    lzo 需依赖 hadoop 和 lzo 进行编译,编译步骤如下。
    编译参照:
    2)将编译好后的 hadoop-lzo-0.4.20.jar 放入 hadoop-3.1.3/share/hadoop/common/
    3)同步 hadoop-lzo-0.4.20.jar 到 hadoop103、hadoop104
    xsync hadoop-lzo-0.4.20.jar
    4)core-site.xml 增加配置支持 LZO 压缩
    <configuration>
    <property>
    <name>io.compression.codecs</name>
    <value>
    org.apache.hadoop.io.compress.GzipCodec,
    org.apache.hadoop.io.compress.DefaultCodec,
    org.apache.hadoop.io.compress.BZip2Codec,
    org.apache.hadoop.io.compress.SnappyCodec,
    com.hadoop.compression.lzo.LzoCodec,
    com.hadoop.compression.lzo.LzopCodec
    </value>
    </property>
    <property>
    <name>io.compression.codec.lzo.class</name>
    <value>com.hadoop.compression.lzo.LzoCodec</value>
    </property>
    </configuration>
    5)同步 core-site.xml 到 hadoop103、hadoop104
    xsync core-site.xml
    6)启动及查看集群
    [atguigu@hadoop102 hadoop-3.1.3]$ sbin/start-dfs.sh
    [atguigu@hadoop103 hadoop-3.1.3]$ sbin/start-yarn.sh
    7) 安装成功后进行测试

    在命令行中使用lzo 压缩,相关参数可以到官网查找:

    https://hadoop.apache.org/docs/stable/hadoop-mapreduce-client/hadoop-mapreduce-client-core/mapred-default.xml

    hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount -Dmapreduce.output.fileoutputformat.compress=true -Dmapreduce.output.fileoutputformat.compress.codec=
    com.hadoop.compression.lzo.LzoCodec /input /output111

    LZO创建索引

    1)创建LZO文件的索引,LZO压缩文件的可切片特性依赖于其索引,故我们需要手动为LZO压缩文件创建索引。若无索引,则LZO文件的切片只有一个。

    hadoop jar /path/to/your/hadoop-lzo.jar com.hadoop.compression.lzo.DistributedLzoIndexer big_file.lzo

    2)测试

    1)将bigtable.lzo200M)上传到集群的根目录

    2)执行wordcount程序

    hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount -Dmapreduce.job.inputformat.class=com.hadoop.mapreduce.LzoTextInputFormat /input /output1

    (3)对上传的LZO文件建索引

    hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/common/hadoop-lzo-0.4.20.jar  com.hadoop.compression.lzo.DistributedLzoIndexer /input/bigtable.lzo

    (4)再次执行WordCount程序

    hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount -Dmapreduce.job.inputformat.class=com.hadoop.mapreduce.LzoTextInputFormat /input /output2

    3)注意:如果以上任务,在运行过程中报如下异常

    Container [pid=8468,containerID=container_1594198338753_0001_01_000002] is running 318740992B beyond the 'VIRTUAL' memory limit. Current usage: 111.5 MB of 1 GB physical memory used; 2.4 GB of 2.1 GB virtual memory used. Killing container.

    Dump of the process-tree for container_1594198338753_0001_01_000002 :

    解决办法:在hadoop102/opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml文件中增加如下配置,然后分发到hadoop103hadoop104服务器上,并重新启动集群。

    <!--是否启动一个线程检查每个任务正使用的物理内存量,如果任务超出分配值,则直接将其杀掉,默认是true -->
    
    <property>
    
       <name>yarn.nodemanager.pmem-check-enabled</name>
    
       <value>false</value>
    
    </property>
    
    <!--是否启动一个线程检查每个任务正使用的虚拟内存量,如果任务超出分配值,则直接将其杀掉,默认是true -->
    
    <property>
    
       <name>yarn.nodemanager.vmem-check-enabled</name>
    
       <value>false</value>
    
    </property>
  • 相关阅读:
    Django 06模板语言的复用
    Django 07模型层—单表操作
    Django 05模板-变量、过滤器、 标签
    Django 04(视图层基础01)
    Django 03 (路由层基础)
    Django--02(项目创建,数据请求迁移,单表orm增删改查)
    Web 文本、reset操作、高级选择器、边界圆角、a的四大伪类、精灵图
    web前端 基础选择器、长度与颜色、display、嵌套、盒模型
    MySQL之数据库的常用语句
    PHP中级篇 Apache配置httpd-vhosts虚拟主机总结及注意事项(转载)
  • 原文地址:https://www.cnblogs.com/knighterrant/p/15087013.html
Copyright © 2020-2023  润新知