spark sql 常用语句

spark sql 常用语句
在spark dataFrame数据结构里面使用sql语句查询数据

（因为是RDD和dataFrame数据是只读的，所以不能做修改，删除操作。）

首先将文本数据转换为DataFrame数据格式

有两种将RDD转换为Dataframe的形式
- 利用反射机制推断RDD模式
- 使用编程方式定义RDD模式
这里直接读取json文件并转换为dataFrame结构
```
from pyspark.sql import SparkSession

spark=SparkSession.builder.getOrCreate()
df = spark.read.json("/user/hadoop/data.json")

df.createOrReplaceTempView("data")
dataDF = spark.sql("select title from data where title like '%中国%'").show()
```
1. 查看data表中的所有title
```
select * from data 
```
1. 查看data表中，title包含字符串‘中国’
```
select title from data where title like '%中国%'
```
1. 查看data表中，country 的值（去重）
```
SELECT DISTINCT country FROM data
```
1. 查看平均值
```
spark.sql("select AVG(id) from data").show()
```
1. 累加
```
spark.sql("select COUNT(id) from data").show()
```
1. 统计有多少行数据
```
spark.sql("select COUNT(*) AS nums from data").show()
```
1. 查看id=1的第一条数据的name值
```
spark.sql("select FIRST(name) AS name from data where id=1").show()
```
类似使用的函数：LAST MAX MIN SUM
相关阅读:
SimpleXML简单使用
 制作RSS供应源
 DOM方式操作XML
Referer与图片防盗链
 PAT
Margarite and the best present
Petya and Origami
Margarite and the best present
Petya and Origami
A/B
原文地址：https://www.cnblogs.com/panfengde/p/11434538.html

spark sql 常用语句

在spark dataFrame数据结构里面使用sql语句查询数据

首先将文本数据转换为DataFrame数据格式