• Flume框架基础


    第一章 Flume 概述

    1.1 Flume定义

    Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集聚合传输的系统。

    Flume基于流式架构,灵活简单。

     Flume最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到HDFS

    1.2 Flume组成架构

    Flume组成架构如图

    Flume组成架构

    下面我们来详细介绍一下Flume架构中的组件。

    对应关系

    • 数据源于Source:1对1
    • Source与Channel:1对多
    • Channel与Sink:1对多
    • Sink与数据目的地:1对1

     

    1.2.1 Agent

    Agent是一个JVM进程,它以事件的形式将数据从源头送至目的。

    Agent主要有3个部分组成,SourceChannelSink

    1.2.2 Source

    Source是负责接收数据到Flume Agent的组件。Source组件可以处理各种类型、各种格式的日志数据,包括avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy。

    1.2.3 Channel

    Channel是位于Source和Sink之间的缓冲区。因此,Channel允许Source和Sink运作在不同的速率上。Channel是线程安全的,可以同时处理几个Source的写入操作和几个Sink的读取操作。

    Flume自带两种Channel:Memory ChannelFile Channel

    Memory Channel是内存中的队列。Memory Channel在不需要关心数据丢失的情景下适用。如果需要关心数据丢失,那么Memory Channel就不应该使用,因为程序死亡、机器宕机或者重启都会导致数据丢失。

    File Channel将所有事件写到磁盘。因此在程序关闭或机器宕机的情况下不会丢失数据。

    1.2.4 Sink

    Sink不断地轮询Channel中的事件且批量地移除它们,并将这些事件批量写入到存储或索引系统、或者被发送到另一个Flume Agent。

    Sink是完全事务性的。在从Channel批量删除数据之前,每个Sink用Channel启动一个事务。批量事件一旦成功写出到存储系统或下一个Flume Agent,Sink就利用Channel提交事务。事务一旦被提交,该Channel从自己的内部缓冲区删除事件。

    Sink组件目的地包括hdfs、logger、avro、thrift、ipc、file、null、HBase、solr、自定义。

    1.2.5 Event

    传输单元,Flume 数据传输的基本单元,以 Event 的形式将数据从源头送至目的地
    Event 由 Header 和 Body 两部分组成,Header 用来存放该 event 的一些属性,为 K-V 结构,Body 用来存放该条数据,形式为字节数组。

    第二章 Flume 入门

    2.1 Flume 安装部署

    2.1.1 安装地址

    (1)Flume 官网地址:http://flume.apache.org/
    (2)文档查看地址:http://flume.apache.org/FlumeUserGuide.html
    (3)下载地址:http://archive.apache.org/dist/flume/

    2.1.2 安装部署

    (1)将 apache-flume-1.9.0-bin.tar.gz 上传到 linux 的/opt/software 目录下
    (2)解压 apache-flume-1.9.0-bin.tar.gz 到/opt/module/目录下

    [atguigu@hadoop102 software]$ tar -zxf /opt/software/apacheflume-1.9.0-bin.tar.gz -C /opt/module/

    (3)修改 apache-flume-1.9.0-bin 的名称为 flume

    [atguigu@hadoop102 module]$ mv /opt/module/apache-flume-1.9.0-bin /opt/module/flume

    (4)将 lib 文件夹下的 guava-11.0.2.jar 删除以兼容 Hadoop 3.1.3

    [atguigu@hadoop102 lib]$ rm /opt/module/flume/lib/guava-11.0.2.jar

    2.2 Flume 入门案例

    2.2.1 监控端口数据官方案例

    1)案例需求:
    使用 Flume 监听一个端口,收集该端口数据,并打印到控制台。
    2)需求分析:

     3)实现步骤:
    (1)安装 netcat 工具

    [atguigu@hadoop102 software]$ sudo yum install -y nc

    (2)判断 44444 端口是否被占用

    [atguigu@hadoop102 flume-telnet]$ sudo netstat -nlp | grep 44444

    (3)创建 Flume Agent 配置文件 flume-netcat-logger.conf
    (4)在 flume 目录下创建 job 文件夹并进入 job 文件夹。

    [atguigu@hadoop102 flume]$ mkdir job
    [atguigu@hadoop102 flume]$ cd job/

    (5)在 job 文件夹下创建 Flume Agent 配置文件 flume-netcat-logger.conf。

    [atguigu@hadoop102 job]$ vim flume-netcat-logger.conf

    (6)在 flume-netcat-logger.conf 文件中添加如下内容。
    添加内容如下:

    # Name the components on this agent
    a1.sources = r1
    a1.sinks = k1
    a1.channels = c1
    # Describe/configure the source
    a1.sources.r1.type = netcat
    a1.sources.r1.bind = localhost
    a1.sources.r1.port = 44444
    # Describe the sink
    a1.sinks.k1.type = logger
    # Use a channel which buffers events in memory
    a1.channels.c1.type = memory
    a1.channels.c1.capacity = 1000
    a1.channels.c1.transactionCapacity = 100
    # Bind the source and sink to the channel
    a1.sources.r1.channels = c1
    a1.sinks.k1.channel = c1

    注:配置文件来源于官方手册 http://flume.apache.org/FlumeUserGuide.html

     (7)先开启 flume 监听端口
    第一种写法:

    [atguigu@hadoop102 flume]$ bin/flume-ng agent --conf conf/ --name a1 --conf-file job/flume-netcat-logger.conf -Dflume.root.logger=INFO,console

    第二种写法:

    [atguigu@hadoop102 flume]$ bin/flume-ng agent -c conf/ -n a1 -f job/flume-netcat-logger.conf -Dflume.root.logger=INFO,console

    参数说明:

    • --conf/-c:表示配置文件存储在 conf/目录
    • --name/-n:表示给 agent 起名为 a1
    • --conf-file/-f:flume 本次启动读取的配置文件是在 job 文件夹下的 flume-telnet.conf文件。
    • -Dflume.root.logger=INFO,console :-D 表示 flume 运行时动态修改 flume.root.logger参数属性值,并将控制台日志打印级别设置为 INFO 级别。日志级别包括:log、info、warn、error。

    (8)使用 netcat 工具向本机的 44444 端口发送内容

    [atguigu@hadoop102 ~]$ nc localhost 44444
    hello world

    (9)在 Flume 监听页面观察接收数据情况

    2021-11-25 16:11:01,922 (SinkRunner-PollingRunner-DefaultSinkProcessor) [INFO - org.apache.flume.sink.LoggerSink.process(LoggerSink.java:95)] Event: { headers:{} body: 68 65 6C 6C 6F 20 77 6F 72 6C 64                hello world }

    2.2.2 实时监控单个追加文件

    1)案例需求:实时监控 Hive 日志,并上传到 HDFS 中

    2)需求分析:

     3)实现步骤:

    (1)Flume 要想将数据输出到 HDFS,依赖 Hadoop 相关 jar 包
    检查/etc/profile.d/my_env.sh 文件,确认 Hadoop 和 Java 环境变量配置正确

    (2)创建 flume-file-hdfs.conf 文件
    创建文件

    [atguigu@hadoop102 job]$ vim flume-file-hdfs.conf

    注:要想读取 Linux 系统中的文件,就得按照 Linux 命令的规则执行命令。由于 Hive日志在 Linux 系统中所以读取文件的类型选择:exec 即 execute 执行的意思。表示执行
    Linux 命令来读取文件。
    添加如下内容

    # Name the components on this agent
    a2.sources = r2
    a2.sinks = k2
    a2.channels = c2
    # Describe/configure the source
    a2.sources.r2.type = exec
    a2.sources.r2.command = tail -F /opt/module/hive/logs/hive.log
    # Describe the sink
    a2.sinks.k2.type = hdfs
    a2.sinks.k2.hdfs.path = hdfs://hadoop102:8020/flume/%Y%m%d/%H
    #上传文件的前缀
    a2.sinks.k2.hdfs.filePrefix = logs- #是否按照时间滚动文件夹
    a2.sinks.k2.hdfs.round = true
    #多少时间单位创建一个新的文件夹
    a2.sinks.k2.hdfs.roundValue = 1
    #重新定义时间单位
    a2.sinks.k2.hdfs.roundUnit = hour
    #是否使用本地时间戳
    a2.sinks.k2.hdfs.useLocalTimeStamp = true
    #积攒多少个 Event 才 flush 到 HDFS 一次
    a2.sinks.k2.hdfs.batchSize = 100
    #设置文件类型,可支持压缩
    a2.sinks.k2.hdfs.fileType = DataStream
    #多久生成一个新的文件
    a2.sinks.k2.hdfs.rollInterval = 60
    #设置每个文件的滚动大小
    a2.sinks.k2.hdfs.rollSize = 134217700
    #文件的滚动与 Event 数量无关
    a2.sinks.k2.hdfs.rollCount = 0
    # Use a channel which buffers events in memory
    a2.channels.c2.type = memory
    a2.channels.c2.capacity = 1000
    a2.channels.c2.transactionCapacity = 100
    # Bind the source and sink to the channel
    a2.sources.r2.channels = c2
    a2.sinks.k2.channel = c2

    注意这里HDFS的服务器端口号,我这里是8020
    注意:对于所有与时间相关的转义序列,Event Header 中必须存在以 “timestamp”的key(除非 hdfs.useLocalTimeStamp 设置为 true,此方法会使用 TimestampInterceptor 自
    动添加 timestamp)。
    a3.sinks.k3.hdfs.useLocalTimeStamp = true

    (3)运行 Flume

    [atguigu@hadoop102 flume]$ bin/flume-ng agent --conf conf/ --name a2 --conf-file job/flume-file-hdfs.conf

    (4)开启 Hadoop 和 Hive 并操作 Hive 产生日志

    我这里hadoop和hive都是使用sh脚本启动的。

    [atguigu@hadoop102 hive]$ bin/hive
    hive (default)>

    (5)在 HDFS 上查看文件。

    2.2.3 实时监控目录下多个新文件

    1)案例需求:使用 Flume 监听整个目录的文件,并上传至 HDFS
    2)需求分析:

    3)实现步骤:
    (1)创建配置文件 flume-dir-hdfs.conf
    创建一个文件

    [atguigu@hadoop102 job]$ vim flume-dir-hdfs.conf

    添加如下内容

    a3.sources = r3
    a3.sinks = k3
    a3.channels = c3
    # Describe/configure the source
    a3.sources.r3.type = spooldir
    a3.sources.r3.spoolDir = /opt/module/flume/upload
    a3.sources.r3.fileSuffix = .COMPLETED
    a3.sources.r3.fileHeader = true
    #忽略所有以.tmp 结尾的文件,不上传
    a3.sources.r3.ignorePattern = ([^ ]*\.tmp)
    # Describe the sink
    a3.sinks.k3.type = hdfs
    a3.sinks.k3.hdfs.path = hdfs://hadoop102:8020/flume/upload/%Y%m%d/%H
    #上传文件的前缀
    a3.sinks.k3.hdfs.filePrefix = upload- #是否按照时间滚动文件夹
    a3.sinks.k3.hdfs.round = true
    #多少时间单位创建一个新的文件夹
    a3.sinks.k3.hdfs.roundValue = 1
    #重新定义时间单位
    a3.sinks.k3.hdfs.roundUnit = hour
    #是否使用本地时间戳
    a3.sinks.k3.hdfs.useLocalTimeStamp = true
    #积攒多少个 Event 才 flush 到 HDFS 一次
    a3.sinks.k3.hdfs.batchSize = 100
    #设置文件类型,可支持压缩
    a3.sinks.k3.hdfs.fileType = DataStream
    #多久生成一个新的文件
    a3.sinks.k3.hdfs.rollInterval = 60
    #设置每个文件的滚动大小大概是 128M
    a3.sinks.k3.hdfs.rollSize = 134217700
    #文件的滚动与 Event 数量无关
    a3.sinks.k3.hdfs.rollCount = 0
    # Use a channel which buffers events in memory
    a3.channels.c3.type = memory
    a3.channels.c3.capacity = 1000
    a3.channels.c3.transactionCapacity = 100
    # Bind the source and sink to the channel
    a3.sources.r3.channels = c3
    a3.sinks.k3.channel = c3

    (2)启动监控文件夹命令

    [atguigu@hadoop102 flume]$ bin/flume-ng agent --conf conf/ --name a3 --conf-file job/flume-dir-hdfs.conf

    说明:在使用 Spooling Directory Source 时,不要在监控目录中创建并持续修改文
    件;上传完成的文件会以.COMPLETED 结尾;被监控文件夹每 500 毫秒扫描一次文件变动。

    (3)向 upload 文件夹中添加文件
    在/opt/module/flume 目录下创建 upload 文件夹

    [atguigu@hadoop102 flume]$ mkdir upload

    向 upload 文件夹中添加文件

    [atguigu@hadoop102 upload]$ touch atguigu.txt
    [atguigu@hadoop102 upload]$ touch atguigu.tmp
    [atguigu@hadoop102 upload]$ touch atguigu.log

    (4)查看 HDFS 上的数据

    如果出先了各种问题,到/opt/module/flume/logs中查看flume的日志来解决问题。
    这里将一个通用的查看日志的小技巧,在日志末尾追加一些空行,之后报错写入的日志会和之前的日志之间有间隔,便于查找报错信息。

    2.2.4 实时监控目录下的多个追加文件

    flume中有三种可监控文件或目录的source、分别是Exec SourceSpooling Directory SourceTaildir Source

    Exec Source可通过tail -f命令去tail住一个文件,然后实时同步日志到sink。但存在的问题是,当agent进程挂掉重启后,会有重复消费的问题。可以通过增加UUID来解决,或通过改进ExecSource来解决。

    Spooling Directory Source可监听一个目录,同步目录中的新文件到sink,被同步完的文件可被立即删除或被打上标记。适合用于同步新文件,但不适合对实时追加日志的文件进行监听并同步。如果需要实时监听追加内容的文件,可对SpoolDirectorySource进行改进。

    Taildir Source是1.7版本的新特性,综合了Spooling Directory Source和Exec Source的优点。Taildir Source可实时监控一批文件,并记录每个文件最新消费位置,agent进程重启后不会有重复消费的问题。

    Exec source 适用于监控一个实时追加的文件,不能实现断点续传;

    Spooldir Source适合用于同步新文件,但不适合对实时追加日志的文件进行监听并同步;

    Taildir Source适合用于监听多个实时追加的文件,并且能够实现断点续传。

    软件断点续传指的是在下载或上传时,将下载或上传任务(一个文件或一个压缩包)人为的划分为几个部分,每一个部分采用一个线程进行上传或下载,如果碰到网络故障,可以从已经上传或下载的部分开始继续上传下载未完成的部分,而没有必要从头开始上传下载。用户可以节省时间,提高速度。

    1)案例需求:使用 Flume 监听整个目录的实时追加文件,并上传至 HDFS

    2)需求分析:

     3)实现步骤:
    (1)创建配置文件 flume-taildir-hdfs.conf
    创建一个文件

    [atguigu@hadoop102 job]$ vim flume-taildir-hdfs.conf

    添加如下内容

    a3.sources = r3
    a3.sinks = k3
    a3.channels = c3
    # Describe/configure the source
    # 定义source类型
    a3.sources.r3.type = TAILDIR
    # 定义position_file位置 a3.sources.r3.positionFile
    = /opt/module/flume/tail_dir.json a3.sources.r3.filegroups = f1 f2 a3.sources.r3.filegroups.f1 = /opt/module/flume/files/.*file.* a3.sources.r3.filegroups.f2 = /opt/module/flume/files2/.*log.* # Describe the sink a3.sinks.k3.type = hdfs a3.sinks.k3.hdfs.path = hdfs://hadoop102:8020/flume/upload2/%Y%m%d/%H #上传文件的前缀 a3.sinks.k3.hdfs.filePrefix = upload- #是否按照时间滚动文件夹 a3.sinks.k3.hdfs.round = true #多少时间单位创建一个新的文件夹 a3.sinks.k3.hdfs.roundValue = 1 #重新定义时间单位 a3.sinks.k3.hdfs.roundUnit = hour #是否使用本地时间戳 a3.sinks.k3.hdfs.useLocalTimeStamp = true #积攒多少个 Event 才 flush 到 HDFS 一次 a3.sinks.k3.hdfs.batchSize = 100 #设置文件类型,可支持压缩 a3.sinks.k3.hdfs.fileType = DataStream #多久生成一个新的文件 a3.sinks.k3.hdfs.rollInterval = 60 #设置每个文件的滚动大小大概是 128M a3.sinks.k3.hdfs.rollSize = 134217700 #文件的滚动与 Event 数量无关 a3.sinks.k3.hdfs.rollCount = 0 # Use a channel which buffers events in memory a3.channels.c3.type = memory a3.channels.c3.capacity = 1000 a3.channels.c3.transactionCapacity = 100 # Bind the source and sink to the channel a3.sources.r3.channels = c3 a3.sinks.k3.channel = c3

    (2)启动监控文件夹命令

    [atguigu@hadoop102 flume]$ bin/flume-ng agent --conf conf/ --name a3 --conf-file job/flume-taildir-hdfs.conf

    (3)向 files 文件夹中追加内容
    在/opt/module/flume 目录下创建 files 文件夹

    [atguigu@hadoop102 flume]$ mkdir files
    [atguigu@hadoop102 flume]$ mkdir files2

    向 upload 文件夹中添加文件

    [atguigu@hadoop102 files]$ echo hello >> file1.txt
    [atguigu@hadoop102 files]$ echo atguigu >> file2.txt

    (4)查看 HDFS 上的数据
    Taildir 说明:
    Taildir Source 维护了一个 json 格式的 position File,其会定期的往 position File中更新每个文件读取到的最新的位置,因此能够实现断点续传。

    Position File 的格式如下:

    {"inode":2496272,"pos":12,"file":"/opt/module/flume/files/file1.txt"}
    {"inode":2496275,"pos":12,"file":"/opt/module/flume/files/file2.txt"}

    Linux 中储存文件元数据的区域就叫做 inode,每个 inode 都有一个号码,操作系统用 inode 号码来识别不同的文件,Unix/Linux 系统内部不使用文件名,而使用 inode 号码来识别文件。         

    Flume默认情况下是根据inode和文件绝对路径共同来决定保存Position数据,

    源码修改:


    作者:王陸

    -------------------------------------------

    个性签名:罔谈彼短,靡持己长。做一个谦逊爱学的人!

    本站使用「署名 4.0 国际」创作共享协议,转载请在文章明显位置注明作者及出处。鉴于博主处于考研复习期间,有什么问题请在评论区中提出,博主尽可能当天回复,加微信好友请注明原因

  • 相关阅读:
    15 Django组件-中间件
    Android学习笔记-Dialog详解
    python爬取世界疫情信息到Mysql
    《构建之法》阅读笔记3
    团队项目--校园百晓生
    团队项目--校园百晓生
    php安装配置及问题解决
    《构建之法》阅读笔记2
    云服务器配置(转载)
    第五周总结
  • 原文地址:https://www.cnblogs.com/wkfvawl/p/15603589.html
Copyright © 2020-2023  润新知