filter是一个transformation 类的算子:过滤符合条件的记录数,true保留,false过滤掉。
查看idea提示:输入和数据有关系,本次输入的是一个元组(String,Int),输出是一个Boolean类型的变量
需求:就元组的第一个字符包含"Caused"的过滤输出
方式一:
val data:RDD[String]=spark.sparkContext.textFile(datapath) data.map(x=>(x,1)).filter(fun).foreach(println) def fun(line:(String,Int)):Boolean={ line._1.contains("Caused") }
方式二:
val data:RDD[String]=spark.sparkContext.textFile(datapath) data.map(x=>(x,1)).filter(x=>x._1.contains("Caused")).foreach(println)