• spark sql 常用语句


    在spark dataFrame数据结构里面使用sql语句查询数据

    (因为是RDD和dataFrame数据是只读的,所以不能做修改,删除操作。)

    首先将文本数据转换为DataFrame数据格式

    有两种将RDD转换为Dataframe的形式

    • 利用反射机制推断RDD模式
    • 使用编程方式定义RDD模式

    这里直接读取json文件并转换为dataFrame结构

    
    from pyspark.sql import SparkSession
    
    spark=SparkSession.builder.getOrCreate()
    df = spark.read.json("/user/hadoop/data.json")
    
    df.createOrReplaceTempView("data")
    dataDF = spark.sql("select title from data where title like '%中国%'").show()
    
    
    1. 查看data表中的所有title
    select * from data 
    
    
    1. 查看data表中,title包含字符串‘中国’
    select title from data where title like '%中国%'
    
    1. 查看data表中,country 的值(去重)
    SELECT DISTINCT country FROM data
    
    1. 查看平均值
    spark.sql("select AVG(id) from data").show()
    
    1. 累加
    spark.sql("select COUNT(id) from data").show()
    
    1. 统计有多少行数据
    spark.sql("select COUNT(*) AS nums from data").show()
    
    1. 查看id=1的第一条数据的name值
    spark.sql("select FIRST(name) AS name from data where id=1").show()
    

    类似使用的函数:LAST MAX MIN SUM

  • 相关阅读:
    SimpleXML简单使用
    制作RSS供应源
    DOM方式操作XML
    Referer与图片防盗链
    PAT
    Margarite and the best present
    Petya and Origami
    Margarite and the best present
    Petya and Origami
    A/B
  • 原文地址:https://www.cnblogs.com/panfengde/p/11434538.html
Copyright © 2020-2023  润新知