• 041 SparkSql的回顾与复习


      在前面学完了SparkCore后,又学了SparkSQL,在继续加深学习之前,一定的复习还是很重要的。这里大体写一下,加深自己对SparlSQL的理解。

    1.SparkSQL

      首先是SaprkSQL与HIve的继承

      然后是ThriftServer服务(JDBC/ODBC)

      SparlSQL开发语言:

        HQL:表需要存在(可以是HIve表存在,也可以是临时表存在--这样需要DateFrame注册)

        DSL:DateFrame相关的API(select,groupby。。。)

      DateFrame:SparkSQL的抽象

        RDD+Schema

        内部是一个逻辑计划

        编程模式:read与writer编程,这是一个链式编程

      SparkSQL默认支持的数据源

        hive

        rdbms

        parquet

        json

      多数据源的数据可以进行join操作

        注册成两张临时表,然后就可以进行join了

      可以替换Sqoop的工作,做数据同步的事情

        hive,hdfs(text,parquet,avro,orc),hbase,RDBMS,redis,MongoDB

      

  • 相关阅读:
    Centos7 安装配置Elasticsearch
    单例模式
    Eclipse上部署maven项目
    单点登录
    各eclipse插件的作用
    eclipse中安装Subclipse插件
    往idea中导入已有的web项目
    maven 项目部署
    【转帖】算法刷题网站
    混淆矩阵-MATLAB代码详解
  • 原文地址:https://www.cnblogs.com/juncaoit/p/9357544.html
Copyright © 2020-2023  润新知