package rdd.builder import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object Spark_01_RDD_Memory { def main(args: Array[String]): Unit = { //TODO 准备环境 val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("RDD") val sc = new SparkContext(sparkConf) //TODO 创建RDD //从内存中创建RDD,将内存中集合的数据作为处理的数据源 val seq=Seq[Int](1,2,3,4) //parallelize并行 //val rdd: RDD[Int] = sc.parallelize(seq) val rdd: RDD[Int] = sc.makeRDD(seq) rdd.collect().foreach(println) //TODO 关闭环境 sc.stop() } }
package rdd.builder import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object Spark_02_RDD_File { def main(args: Array[String]): Unit = { //TODO 准备环境 val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("RDD") val sc = new SparkContext(sparkConf) //TODO 创建RDD //从文件中创建RDD,将文件中的数据作为处理的数据源 //path路径以当前环境的根目录为基准,可以写绝对路径,也可以写相对路径 //val rdd: RDD[String] = sc.textFile("D:\SoftWare\IDEA\workspace\SparkStudy\datas\1.txt") //相对路径 //val rdd: RDD[String] = sc.textFile("datas/1.txt") //目录名称 //val rdd: RDD[String] = sc.textFile("datas") //通配符 //val rdd: RDD[String] = sc.textFile("datas/1*.txt") //分布式存储系统路径 val rdd: RDD[String] = sc.textFile("hdfs://master:9000/test") rdd.collect().foreach(println) //TODO 关闭环境 sc.stop() } }