flume:是分布式、可靠、可用性好服务,用于收集、聚合、移动大量日志数据。是基于流计算的简单灵活框架,用于在线分析
stream:动态计算
flume优点:
1.可以和任意集中式存储进程集成
2.输入的数据速率大于写入存储目的地的速度,flume会进行缓冲
3.flume提供上下文路由(数据流路线)
4.flume中的事物基于channel,使用了两个事物模型(sender+receiver)确保消息被可靠发送
5.flume is reliable,fault tolerant,scalable,manageable,and customs
flume特点:
1.flume高效手机web,server的log到hdfs
2.可以高效获取输入
3.导入大量数据
4.flume支持大量的source和destination类型
5.flume支持多级跳跃、source和destination的fan in和fan out
6.flume可以水平伸缩
put问题:
1.同一时刻只能传输一个文件
2.put处理的静态文件
flume架构:
1.描述:在数据生成器运行的节点上启动单独的flume agent来收集数据。数据收集器收集数据,推送到hdfs
2.Fluem Event:事件是flume的传输单元。主要是byte[],可以含有一二写header信息。在source和destination之间
3.Flume agent:每个agent是一个独立的java进程,从客户端(其他agent)接受数据,然后转发到下一个destination(sink|agent)
agent包含三个组件
1.source
从事件源头生成器接受数据,传给agent的channel(多个或一个,以event事件的方式)
2.channel
从source中接受flume event,作为历史存放地,缓存到buffer中,直到sink将其消费掉,是source和sink的桥梁
channel是事务的,可以和多个source和sink协同
3.sink
存放数据到hdfs,hbase..从channel中消费event,并分发给destination,sink的destination也可以是另一个hdfs sink,hbase sink,AVro sink等
agent_nane.sources=r1,r2
agent_name.sinks=s1,s2
agent_name.channels=c1,c2
a1.sources=r1,r2
a1.sinks=s1,s2
a1.channels=c1,c2
#source-r1
a1.sources.r1.type=
a1.sources.r1.xxx=
a1.sources.r1.yyy=
#sink-s1
a1.sinks.s1.type=
a1.sinks.s1.xxx=
#channel-c1
a1.channels.c1.type=
a1.channels.c1.xxx=
#binding绑定
a1.sources.r1.channels=c1 -->一个source可以配置多个channels
a1.sinks.s1.channel=c1 -->一个sink只能配置一个channel
Flume外部结构:
Flume内部结构:
Flume流程:
Agent结构:
Flume Event结构:
事件作为Flume内部数据传输的最基本单元.它是由一个转载数据的字节数组(该数据组是从数据源接入点传入,并传输给传输器,也就是HDFS/HBase)和一个可选头部构成.