• 【Flume】知识总结


    Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。

    在这里插入图片描述

    Source

    *Source负责接收events或通过特殊机制产生events,并将events批量放到一个或多个Channels。有驱动和轮询2种类型的Source。

    驱动型source:是外部主动发送数据给Flume,驱动Flume接受数据。
    轮询source:是Flume周期性主动去获取数据。

    *Source必须至少和一个channel关联。

    Channel

    *Channel位于Source和Sink之间, Channel的作用类似队列,用于临时缓存进来的events,当Sink成功地将events发送到下一跳的channel或最终目的,events从Channel移除。
    不同的Channel提供的持久化水平也是不一样的:

    Memory Channel:不会持久化 。
    File Channel: 基于WAL(预写式日志Write-Ahead Log)实现。
    JDBC Channel: 基于嵌入式Database实现。

    *Channels支持事务,提供较弱的顺序保证,可以连接任何数量的Source和Sink。

    memory channel:消息存放在内存中,提供高吞吐,但不提供可靠性;可能丢失数据。
    file channel:对数据持久化;但是配置较为麻烦,需要配置数据目录和checkpoint目录;不同的file channel均需要配置一个checkpoint 目录。
    jdbc channel:内置的derby数据库,对event进行了持久化,提供高可靠性;可以取代同样具有持久特性的file channel

    Sink

    *Sink负责将events传输到下一跳或最终目的,成功完成后将events从channel移除。
    *必须作用于一个确切的channel。

    在这里插入图片描述

    在这里插入图片描述
    在这里插入图片描述

    在这里插入图片描述
    在这里插入图片描述

  • 相关阅读:
    动态表单之数据分页
    SQL Server 批量生成bcp命令
    SQL Server 全文索引的硬伤
    简单实用SQL脚本Part2:日期和时间函数
    使用SQL Server 扩展函数进行性能优化
    留念2010年5月5日
    C#获取URL参数值
    SQL Server扩展函数的基本概念
    SQL Server 空间换时间的数据库设计
    简单实用SQL脚本Part:查找SQL Server 自增ID值不连续记录
  • 原文地址:https://www.cnblogs.com/BIG-BOSS-ZC/p/11807283.html
Copyright © 2020-2023  润新知