• 041 SparkSql的回顾与复习


      在前面学完了SparkCore后,又学了SparkSQL,在继续加深学习之前,一定的复习还是很重要的。这里大体写一下,加深自己对SparlSQL的理解。

    1.SparkSQL

      首先是SaprkSQL与HIve的继承

      然后是ThriftServer服务(JDBC/ODBC)

      SparlSQL开发语言:

        HQL:表需要存在(可以是HIve表存在,也可以是临时表存在--这样需要DateFrame注册)

        DSL:DateFrame相关的API(select,groupby。。。)

      DateFrame:SparkSQL的抽象

        RDD+Schema

        内部是一个逻辑计划

        编程模式:read与writer编程,这是一个链式编程

      SparkSQL默认支持的数据源

        hive

        rdbms

        parquet

        json

      多数据源的数据可以进行join操作

        注册成两张临时表,然后就可以进行join了

      可以替换Sqoop的工作,做数据同步的事情

        hive,hdfs(text,parquet,avro,orc),hbase,RDBMS,redis,MongoDB

      

  • 相关阅读:
    redhat安装opencv
    vsftpd的配置与使用
    Redhat 安装编译 Python-2.7.12
    YUM 安装与配置
    docker安装mysql
    高频问题 java8新特性(转载)
    quartz简单实例实现
    java8线程池
    java8多线程不带返回值
    java8多线程带返回值的
  • 原文地址:https://www.cnblogs.com/juncaoit/p/9357544.html
Copyright © 2020-2023  润新知