• 离线电商数仓(十四)之用户行为数据采集(十四)第二层通道调试和如何造数据


    一、第二层采集通道的调试分析
        kafkaSource------>FileChannel------>HDFSSink
    1.数据
          ①保证topic_start和topic_event主题中有数据
          ②验证kafkaSource------>FileChannel是否有问题
              查看消费者组是否有lag!
              或运行test2.conf,使用loggersink看是否在控制台有数据的输出

              验证时,需要注意,每次消费了数据后,当前消费者组都会提交offset!
              下次只会从之前的offset继续消费,因此,可以尝试重置offset
          ③验证FileChannel------>HDFSSink是否有问题
            遇到问题可以尝试讲日志级别设置 WARN,方便调试!

    2.如何造其他日期的数据
          数据的日期取决于kafkaSource所运行机器的时间!

          ①先修改dt,让dt脚本也可以同步104的时间
          如果要造 2019-1-1,2019-1-20,2019-2-11,2019-2-22的数据
          此时
          ②从以上时间中选取最小的时间2019-1-1,执行dt 2019-1-1,讲所有的集群时间同步为
                    2019-1-1,启动集群(hdfs,kafka)
          ③造日志
                        lg ------>/tmp/logs/app-2019-1-1.log
          ④启动f1,f2




          2019-2-22 启动了kafka集群,此时集群会有一个时间戳2019-2-22
          此时修改时间为2019-1-22,如果没有重启kafka集群,此时,生产者在f1运行,
          f1的时间为2019-1-22,而kafka集群的时间依然是2019-2-22,此时生成数据,就会生成超时!

  • 相关阅读:
    DRF简易了解
    Restful API接口规范
    Python分页
    vue笔记(一)
    CNN实现手写数字识别
    深度学习框架Keras
    NLP自然语言处理
    深度学习框架Tensorflow
    维度的区分
    矩阵求导
  • 原文地址:https://www.cnblogs.com/qiu-hua/p/13514317.html
Copyright © 2020-2023  润新知