• Flume概述


    1、Flume是java大数据中用于传输相关的一个框架;大数据是把数据的保存、传输、运算进行操作。只能进行日志的传输,对字节流无法操作

    2、结构:SCK结构

    Agent是JVM进程,由SCK构成

     Source可以是本地文件(本地文件可以是爬虫源或者java生产源),也可以是端口。和数据源对接

    Channel起缓冲作用

    Sink是向外对接

    3、常见配置:

     Avro Source:轻量级RPC通信框架,用在多个Flume对接嵌套

    Exec Source:命令行监控数据源,相当于tail -f 实时获取末尾的更新数据

    Spooling,Directory:目录

    Taildir Souce:监控多个目录里边动态的数据,监控本地文件

    Kafka Source:监听卡夫卡

    Netact Source: 监控端口的

    ======================
    HDFS Sink:写到HDFS

    Hive Sink:写到Hive

    Logger Sink:打印到控制台

     Avro Sink:和Avro Source共同使用,做对接

    File Roll Sink:

    Custom Sink:用户自定义

    ==========

    4、基本单元:

    整个过程是以事件的形式封装传输,Event是Flume的基本单元

    Header+Body

     

  • 相关阅读:
    usage of tmux docker
    mac. mysql
    使用ssh远程编辑
    systemd-udevadm
    iperf
    brctl
    NAT
    Linux 网络配置
    Linux 命令行快捷键
    sed 参数分析
  • 原文地址:https://www.cnblogs.com/Timeouting-Study/p/14129572.html
Copyright © 2020-2023  润新知