DAG图(RDD 依赖关系图,有向图,无环图)
shuffledRDD为宽依赖
在spark shell的页面上查看具体的job执行情况
我们实际操作save
》》》 val cache = sc.textFile("hdfs://hadoop-1:9000/data/test/test.dat").flatMap(_.split(" ")).map(word=>(word,1)).reduceByKey(_+_).cache
》》》cache.saveAsTextFile("/out/cache/wordcache.dat")
》》》cache.saveAsTextFile("/out/cache/wordcache1.dat")
第一次操作
第二次操作
通过两张图对比可以明显看到,第二次save是用缓存中执行的。