今天继续学习sparksql的核心编程
在 Spark SQL 中 SparkSession 是创建 DataFrame 和执行 SQL 的入口,创建 DataFrame
有三种方式:通过 Spark 的数据源进行创建;从一个存在的 RDD 进行转换;还可以从 Hive
Table 进行查询返回。
1)
从 Spark 数据源进行创建
➢
查看 Spark 支持创建文件的数据源格式
scala> spark.read
➢ 在 spark 的 bin/data 目录中创建 user.json 文件
{"username":"zhangsan","age":20}
➢ 读取 json 文件创建 DataFrame
scala> val df = spark.read.json("data/user.json")
注意:如果从内存中获取数据,spark 可以知道数据类型具体是什么。如果是数字,默认作
为 Int 处理;但是从文件中读取的数字,不能确定是什么类型,所以用 bigint 接收,可以和
Long 类型转换,但是和 Int 不能进行转换
最后复习了一下scala的函数式编程