• SparkStreaming实时日志分析--实时热搜词


    • 整个项目的整体架构如下:


    • 关于SparkStreaming的部分:
      1. Flume传数据到SparkStreaming:为了简单使用的是push-based的方式。这种方式可能会丢失数据,但是简单。
      2. SparkStreaming因为micro-batch的架构,跟我们这个实时热点的应用还是比较契合的。
      3. SparkStreaming这边是基于sliding window实现实时热搜的,batch interval待定(1min左右),window也待定(3~N* batch interval),slide就等于batch interval。

    Step1:Flume Configuration

    • Flume端将之前的配置扩展成多channel + 多sink,即sink到HDFS和Spark Streaming。关于Hadoop端的配置,参见Nginx+Flume+Hadoop日志分析,Ngram+AutoComplete
    • Flume + SparkStreaming的集成这部分,暂时选用push-based的方法。简单,但容错性不行。


    • 首先,Flume支持多channel+多sink;
    • 具体的实现:
      1. 在channels和sinks下面加上要add的channel和sink即可
        • clusterLogAgent.sinks = HDFS sink2
          clusterLogAgent.channels = ch1 ch2
      2. 确定所选用的selector
        • 关于selector,我们之前在flume源码解读篇中有了解到,这里选择的是replicating的selector,也就是把source中的events复制到各个channels中。
      3. 这个多sink应该还是配在hadoop cluster端,一个avro sink加一个hdfs sink。要是配在web server端理论上还要浪费网络带宽。
    • 用FlumeEventCount.scala测试了下,一切ok,如下~
      • web server端运行 bin/flume-ng agent -n WebAccLo-c conf -f conf/flume-avro.conf
      • spark端运行 ./bin/spark-submit --class com.wttttt.spark.FlumeEventCount --master yarn --deploy-mode client --driver-memory 1g --executor-memory 1g --executor-cores 2 /home/hhh/RealTimeLog.jar 4545 30000
    •  下一步会用Flume先做一次filter,去除掉没有搜索记录的log event。

    Step2:Spark Streaming

    • Spark Streaming这边只要编写程序:
      1. new一个StreamingContext
      2. FlumeUtils.createStream接收Flume传过来的events
      3. mapPartitions(优化):对每个partiiton建一个Pattern和hashMap
      4. reduceByKeyAndWindow(优化): 滑动窗口对hashMap的相同key进行加减
      5. sortByKey: sort之后取前N个
    •  基于上述方式,现在本地作测试:
      • sparkStreaming处理:
      • object LocalTest {
          val logger = LoggerFactory.getLogger("LocalTest")
          def main(args: Array[String]) {
            val batchInterval = Milliseconds(10000)
            val slideInterval = Milliseconds(5000)
            val conf = new SparkConf()
            // WARN StreamingContext: spark.master should be set as local[n], n > 1 in local mode if you have receivers to get data,
            // otherwise Spark jobs will not get resources to process the received data.
            val sc = new StreamingContext(conf, Milliseconds(5000))
            val stream = sc.socketTextStream("localhost", 9998)
            val counts = stream.mapPartitions{ events =>
              val pattern = Pattern.compile("\?Input=[^\s]*\s")
              val map = new mutable.HashMap[String, Int]()
              logger.info("Handling events, events is empty: " + events.isEmpty)
              while (events.hasNext){   // par is an Iterator!!!
              val line = events.next()
                val m = pattern.matcher(line)
                if (m.find()) {
                  val words = line.substring(m.start(), m.end()).split("=")(1).toLowerCase()
                  logger.info(s"Processing words $words")
                  map.put(words, map.getOrElse(words, 0) + 1)
            val window = counts.reduceByKeyAndWindow(_+_, _-_, batchInterval, slideInterval)
            // window.print()
            // transform和它的变体trnasformWith运行在DStream上任意的RDD-to-RDD函数;
            // 可以用来使用那些不包含在DStrema API中RDD操作
            val sorted = window.transform(rdd =>{
              val sortRdd = rdd.map(t => (t._2, t._1)).sortByKey(false).map(t => (t._2, t._1))
              val more = sortRdd.take(2)
      • 同时,另外运行一个程序,产生log,并向9998端口发送:
      • object GenerateChar {
          def main(args: Array[String]) {
            val listener = new ServerSocket(9998)
              val socket = listener.accept()
              new Thread(){
                override def run() = {
                  println("Got client connected from :"+ socket.getInetAddress)
                  val out = new PrintWriter(socket.getOutputStream,true)
                    val context1 = "GET /result.html?Input=test1 HTTP/1.1"
                    val context2 = "GET /result.html?Input=test2 HTTP/1.1"
                    val context3 = "GET /result.html?Input=test3 HTTP/1.1"
                    out.write(context1 + '
        ' + context2 + "
        " + context2 + "
        " + context3 + "
        " + context3 + "
        " + context3 + "
        " + context3 + "
    • 以上,本地完全没有问题。但是!!!一打包到集群,就各种bug,没有输出。打的logger info也没有输出,System.out.println也没有(stdout文件为空...)。而且会报错shuffleException。
    • 基于上述问题,google了很多都说是内存的问题,但是我的数据量已经不能更小了...  我又测试了下在集群上跑,但不连flume,而是在driver本地跑了个generateLog的程序向9998端口发数据。事实是仍然可能报错如下:
      • 17/05/24 15:07:17 ERROR ShuffleBlockFetcherIterator: Failed to get block(s) from host101:37940
        java.io.IOException: Failed to connect to host101/



    • 整个架构还有很多可改进的地方。因为我现在只剩两台机器了,就先不折腾了。 - -
    • 其中最大的问题还是容错
      • flume是push-based,所以一旦有events冲击波,HDFS可能负载不了高强度的写操作,从而出问题;
      • spark-streaming那边因为也是直接使用这种push-based(没有定制receiver,我嫌麻烦),所以也会有问题。
    • 后续的话,还是要使用经典的Kafka + Flume的架构。
