• flume组件汇总 source、sink、channel


    Flume Source

    Source类型说明
    Avro Source支持Avro协议(实际上是Avro RPC),内置支持
    Thrift Source支持Thrift协议,内置支持
    Exec Source基于Unix的command在标准输出上生产数据
    JMS Source从JMS系统(消息、主题)中读取数据,ActiveMQ已经测试过
    Spooling Directory Source监控指定目录内数据变更
    Twitter 1% firehose Source通过API持续下载Twitter数据,试验性质
    Netcat Source监控某个端口,将流经端口的每一个文本行数据作为Event输入
    Sequence Generator Source序列生成器数据源,生产序列数据

    Syslog Sources

    syslogtcp

    multiport_syslogtcp

    syslogudp

    读取syslog数据,产生Event,支持UDP和TCP两种协议
    HTTP Source基于HTTP POST或GET方式的数据源,支持JSON、BLOB表示形式
    Legacy Sources
    兼容老的Flume OG中Source(0.9.x版本)
    Avro Legacy Source

    Thrift Legacy Source

    Scribe Source

    Custom Source
    自定义Source

    Flume Sink

    Sink类型说明
    HDFS Sink数据写入HDFS
    Logger Sink数据写入日志文件
    Avro Sink数据被转换成Avro Event,然后发送到配置的RPC端口上
    Thrift Sink数据被转换成Thrift Event,然后发送到配置的RPC端口上
    IRC Sink数据在IRC上进行回放
    File Roll Sink存储数据到本地文件系统
    Null Sink丢弃到所有数据
    HBase Sink数据写入HBase数据库
    Morphline Solr Sink数据发送到Solr搜索服务器(集群)
    ElasticSearch Sink数据发送到Elastic Search搜索服务器(集群)
    Kite Dataset Sink写数据到Kite Dataset,试验性质的
    Custom Sink自定义Sink实现

    Flume Channel

    Channel类型说明
    Memory ChannelEvent数据存储在内存中
    JDBC ChannelEvent数据存储在持久化存储中,当前Flume Channel内置支持Derby
    File ChannelEvent数据存储在磁盘文件中
    Spillable Memory ChannelEvent数据存储在内存中和磁盘上,当内存队列满了,会持久化到磁盘文件(当前试验性的,不建议生产环境使用)
    Pseudo Transaction Channel测试用途
    Custom Channel自定义Channel实现

    Channel Selector

    Sink Processor

    Event Serializer

    Event Deserializers

    在source组件上指定,反序列化,将输入(文件、流)解析成event的方式,

    Deserializer类型说明
    LINE默认值,将文本输入的每行转换成一个event
    AVRO读取avro文件,将其中的每条avro记录转换成一个event,每个event都附带着模式信息
    BlobDeserializer将整个二进制大数据转换成一个evnt,通常一个BLOB就是一个文件,比如PDF、JPG

    比如:

    1
    2
    a1.sources=s1
    a1.sources.s1.deserializer=LINE

    注意:

    LINE有个设置每行字符个数的属性:deserializer.maxLineLength,默认是2048,大于这个字符数的行将被截断。

    BlobDeserializer有个设置文件大小的属性:deserializer.maxBlobLength默认是100000000(大约95M),大于这个值的文件将被拆分成多个文件。

    Event Serializers

    在sink组将上指定,序列化,将event对象转换成文件的方式。

    Serializer类型说明
    TEXT(Body Text Serializer)默认值,将event中body里的数据不做改变的转换成输出流,event的header将被忽略
    AVRO_EVENT(Avro Event Serializer)将event转换成avro文件
    BlobDeserializer将整个二进制大数据转换成一个evnt,通常一个BLOB就是一个文件,比如PDF、JPG

    Interceptor

    拦截器可以修改或删除event。

    拦截器可以组成拦截器链,中间用空格分隔,拦截器的配置顺序即是它们的执行顺序。

    Handler类型说明
    Timestamp Interceptor
    向event header中添加了timestamp变量,值是时间戳
    Host Interceptor
    向event header中添加了host变量,可以通%{host}引用(比如在HDFS sink中的路径占位符)
    Static Interceptor
    配置一个静态的值到event header里,多个静态值需要配多个static interceptor
    UUID Interceptor
    向event header里添加变量id,值是随机生成的uuid,可以用这个唯一标识一个event
    Morphline Interceptor
    使用morphline配置文件过滤event。
    Regex Filtering Interceptor
    使用正则表达式过滤(include或exclude)event。
    Regex Extractor Interceptor使用正则表达式来向header中添加key、value。

    配置实例:

    1
    2
    3
    4
    5
    6
    a1.sources=s1
    ...
    a1.sources.s1.interceptors=i1 i2
    a1.sources.s1.interceptors.i1.type=host
    a1.sources.s1.interceptors.i1.hostHeader=host
    a1.sources.s1.interceptors.i2.type=timestamp

    type可以是全限定类名或者是别名









  • 相关阅读:
    Flutter移动电商实战 --(40)路由_Fluro的全局注入和使用方法
    Flutter移动电商实战 --(39)路由_Fluro的路由配置和静态化
    Flutter移动电商实战 --(38)路由_Fluro中Handler编写方法
    Flutter移动电商实战 --(37)路由_Fluro引入和商品详细页建立
    网络基础:NetBIOS
    linux 定时任务
    linux useradd 命令基本用法
    Git undo 操作
    Git 查看文件的历史
    Ubuntu14.04安装postgresql9.4
  • 原文地址:https://www.cnblogs.com/lishouguang/p/4560862.html
Copyright © 2020-2023  润新知