load:加载数据 ,使其变成dataframe
save:保存数据
load和save默认使用的是parquet格式,当然也可以通过format("json"), format("parquet")转换
SparkConf conf = new SparkConf().setMaster("local").setAppName("local run")//本地运行
JavaSparkContext sc = new JacaSparkContext(conf);
SQLContext sqlContext = new SQLContext(sc);
DataFrameReader reader = sqlContext.read();
DataFrame frame = reader.format("json").load("path")//读取json格式
frame.select("name").write().save("path");//write是生成dataFrameWriter对象 save()保存为parquet格式 可以通过format转换
SparkSQL写入模式分为很多种
默认为ERRORIFEISTS
可以对此进行修改
write().mode(SaveMode.Append).save(path)//通过叠加文件的方式
parquest的叠加方式为增加文件
json的叠加方式为在同一个文件append