041 SparkSql的回顾与复习

041 SparkSql的回顾与复习

　　在前面学完了SparkCore后，又学了SparkSQL，在继续加深学习之前，一定的复习还是很重要的。这里大体写一下，加深自己对SparlSQL的理解。

1.SparkSQL

　　首先是SaprkSQL与HIve的继承

　　然后是ThriftServer服务（JDBC/ODBC）

　　SparlSQL开发语言：

　　　　HQL：表需要存在（可以是HIve表存在，也可以是临时表存在--这样需要DateFrame注册）

　　　　DSL：DateFrame相关的API（select，groupby。。。）

　　DateFrame：SparkSQL的抽象

　　　　RDD+Schema

　　　　内部是一个逻辑计划

　　　　编程模式：read与writer编程，这是一个链式编程

　　SparkSQL默认支持的数据源

　　　　hive

　　　　rdbms

　　　　parquet

　　　　json

　　多数据源的数据可以进行join操作

　　　　注册成两张临时表，然后就可以进行join了

　　可以替换Sqoop的工作，做数据同步的事情

　　　　hive，hdfs（text，parquet，avro，orc），hbase，RDBMS，redis，MongoDB

　　
相关阅读:
Centos7 安装配置Elasticsearch
单例模式
 Eclipse上部署maven项目
 单点登录
 各eclipse插件的作用
 eclipse中安装Subclipse插件
 往idea中导入已有的web项目
 maven 项目部署
 【转帖】算法刷题网站
 混淆矩阵-MATLAB代码详解
原文地址：https://www.cnblogs.com/juncaoit/p/9357544.html