Flume实时监控目录sink到hdfs，再用sparkStreaming监控hdfs的这个目录，对数据进行计算

Flume实时监控目录sink到hdfs，再用sparkStreaming监控hdfs的这个目录，对数据进行计算

目标：Flume实时监控目录sink到hdfs，再用sparkStreaming监控hdfs的这个目录，对数据进行计算

1、flume的配置，配置spoolDirSource_hdfsSink.properties，监控本地的一个目录，上传到hdfs一个目录下。

agent1.channels = ch1
agent1.sources = spoolDir-source1
agent1.sinks = hdfs-sink1

# 定义channel
agent1.channels.ch1.type = memory
agent1.channels.ch1.capacity=10000
agent1.channels.ch1.transactionCapacity=1000

# 定义source
agent1.sources.spoolDir-source1.channels = ch1
agent1.sources.spoolDir-source1.type = spooldir
agent1.sources.spoolDir-source1.spoolDir = /home/hadoop/flumeDir
agent1.sources.spoolDir-source1.fileHeader = false

agent1.sources.spoolDir-source1.interceptors=i1 i2
agent1.sources.spoolDir-source1.interceptors.i1.type=timestamp
agent1.sources.spoolDir-source1.interceptors.i2.type=static
agent1.sources.spoolDir-source1.interceptors.i2.key=k
agent1.sources.spoolDir-source1.interceptors.i2.value=v

# 定义sink
agent1.sinks.hdfs-sink1.channel = ch1
agent1.sinks.hdfs-sink1.type = hdfs
agent1.sinks.hdfs-sink1.hdfs.path = hdfs://192.168.1.123:9000/user/hadoop/hdfsSink/%Y-%m-%d
agent1.sinks.hdfs-sink1.fileType = DataStream
agent1.sinks.hdfs-sink1.writeFormat=TEXT
agent1.sinks.hdfs-sink1.filePrefix = flumeHdfs
agent1.sinks.hdfs-sink1.batchSize = 1000
agent1.sinks.hdfs-sink1.rollSize = 10240
agent1.sinks.hdfs-sink1.rollCount = 0
agent1.sinks.hdfs-sink1.rollInterval = 1
agent1.sinks.hdfs-sink1.useLocalTimeStamp = true

2、测试本地目录中的文件是否能被监控传入到hdfs目录

　　1>、启动flume命令：bin/flume-ng agent --conf conf/ --conf-file conf/spoolDirSource_hdfsSink.properties --name agent1 -Dflume.root.logger=INFO,console &

　　

　　启动成功！

　　2>、往/home/hadoop/flumeDir中touch一个文件，d.txt。

         flume会监控到这个目录里添加了新文件，就会把这个文件收集到hdfs相应目录下，在hdfs的位置如下图所示：

　　运行完成的文件，flume会把文件标记为完成，如下所示：

　　3>、这时候运行的sparkStreaming就会监控到hdfs上的变化，运行必要的逻辑，这里我们是实现简单的计数。

结果如下：

　　4>、sparkStreaming的代码如下：

package hdfsStreaming

import org.apache.spark.SparkConf
import org.apache.spark.streaming.StreamingContext
import org.apache.spark.streaming.StreamingContext._
import org.apache.spark.streaming.Seconds
import org.apache.spark.SparkContext
/**
* 监控HDFS一个目录下的文件，有一定的时间间隔，隔一段时间执行一次
* 要等待执行完成
* 离线的批量流式处理
*/
object HdfsStreaming {
def main(args: Array[String]) {

if(args.length !=1){
    println("Usage: <inputPath>");
    System.exit(1)
}
//构造配置对象，获取系统默认的配置对象
val conf=new SparkConf
val sc=new SparkContext(conf)
//构造sparkStreaming上下文对象，参数一是配置，参数二是时间间隔30s
val scc=new StreamingContext(sc,Seconds(30))

//指定接收器，参数为hdfs目录
val datas=scc.textFileStream(args(0))

//业务逻辑
val rs=datas.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_)

//打印结果集
rs.print

//启动任务，需要使用上下文对象启动
scc.start

//等待任务完成
scc.awaitTermination

}
}
相关阅读:
ASCII、Unicode和UTF-8等常见字符编码格式介绍
 pycharm创建脚本头文件模板
 pycharm常用设置项和快捷键
 Genymotion安装apk问题
 [Android测试] Appium的一些坑问题错误解决与技巧集锦
 Appium+python自动化测试过程中问题
 python客户端和Appium服务端联调出现的问题解决办法
 移动端自动化测试环境搭建
 "http://127.0.0.1:4723/wd/hub"的解释
 wireshark抓包看ECN
原文地址：https://www.cnblogs.com/kwzblog/p/7465754.html

Flume实时监控目录sink到hdfs，再用sparkStreaming监控hdfs的这个目录，对数据进行计算

目标：Flume实时监控目录sink到hdfs，再用sparkStreaming监控hdfs的这个目录，对数据进行计算