spark parquet 从hdfs 上读和写

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.sql.DataFrame;
import org.apache.spark.sql.SQLContext;
import org.apache.spark.sql.SaveMode;

/**
 * @author Administrator
 *
 */
public class GenericLoadSave {

	public static void main(String[] args) {
		SparkConf conf = new SparkConf() 
				.setAppName("GenericLoadSave")
				.setMaster("local");
		JavaSparkContext sc = new JavaSparkContext(conf);
		SQLContext sqlContext = new SQLContext(sc);
	//parquet 带表结构 ？？？
		DataFrame usersDF = sqlContext.read().load(	"hdfs://hadoop1:9000/input/users.parquet");
		//没有指定format  就是写入到磁盘的数据格式     默认是parquet
		usersDF.select("name", "favorite_color").write().mode(SaveMode.Overwrite).save("hdfs://hadoop1:9000/output/namesAndFavColors_scala");   
		
		DataFrame pDF = sqlContext.read().parquet("hdfs://hadoop1:9000/output/namesAndFavColors_scala");
		pDF.show();
	}
	
}

相关阅读:
apply call bind方法的区别和含义
html头部meta标签
语义化标签
“文件名和url路径名”命名要点以及大小写问题
BMP GIF PNG JPG等图片格式的区别和适用情况
前端页面的性能优化
js阻止默认事件,如a标签跳转和事件冒泡
散列碰撞问题的解决——开链法（拉链法）
substring()方法
对学生成绩进行散列

原文地址：https://www.cnblogs.com/TendToBigData/p/10501300.html

spark parquet 从hdfs 上读 和写

spark parquet 从hdfs 上读和写