一、第二层采集通道的调试分析
kafkaSource------>FileChannel------>HDFSSink
1.数据
①保证topic_start和topic_event主题中有数据
②验证kafkaSource------>FileChannel是否有问题
查看消费者组是否有lag!
或运行test2.conf,使用loggersink看是否在控制台有数据的输出
验证时,需要注意,每次消费了数据后,当前消费者组都会提交offset!
下次只会从之前的offset继续消费,因此,可以尝试重置offset
③验证FileChannel------>HDFSSink是否有问题
遇到问题可以尝试讲日志级别设置 WARN,方便调试!
2.如何造其他日期的数据
数据的日期取决于kafkaSource所运行机器的时间!
①先修改dt,让dt脚本也可以同步104的时间
如果要造 2019-1-1,2019-1-20,2019-2-11,2019-2-22的数据
此时
②从以上时间中选取最小的时间2019-1-1,执行dt 2019-1-1,讲所有的集群时间同步为
2019-1-1,启动集群(hdfs,kafka)
③造日志
lg ------>/tmp/logs/app-2019-1-1.log
④启动f1,f2
2019-2-22 启动了kafka集群,此时集群会有一个时间戳2019-2-22
此时修改时间为2019-1-22,如果没有重启kafka集群,此时,生产者在f1运行,
f1的时间为2019-1-22,而kafka集群的时间依然是2019-2-22,此时生成数据,就会生成超时!