• lzo


    Flume
    
    agent1.sinks.k1.type = hdfs
    agent1.sinks.k1.hdfs.codeC = lzo 
    
    MapReduce 
    
    
    conf.set("mapreduce.output.fileoutputformat.compress", "true");
    conf.set("mapreduce.output.fileoutputformat.compress.codec", "com.hadoop.compression.lzo.LzopCodec");
    
    
    Hive
    
    use db1;
    drop table if exists tb1;
    CREATE TABLE tb1()
    PARTITIONED BY(xxx string ,yyy string)
    ROW FORMAT DELIMITED 
    FIELDS TERMINATED BY '	'
    STORED AS
    INPUTFORMAT 'com.hadoop.mapred.DeprecatedLzoTextInputFormat'
    OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'

    Hadoop文件格式

    1-非结构化文本数据  可分片压缩

    2-结构化文本数据

    3-二进制数据

    Flume的接收器

    HDFS HBase IRC ElasticSearch

    如果希望HDFS接收器写入的是压缩文件,则需要制定压缩方式,其通过设置hdfs.codeC设置 gzip bzip2  lzo snappy。

  • 相关阅读:
    ajax全套
    url设计规范
    内置下划线方法
    rest_framework视图
    rest_framework
    数据库设置
    HDU 6231
    HDU 6242
    CodeForces 546D
    CodeForces 940E
  • 原文地址:https://www.cnblogs.com/rsapaper/p/7737637.html
Copyright © 2020-2023  润新知