【慕课网实战】四、以慕课网日志分析为例进入大数据 Spark SQL 的世界

【慕课网实战】四、以慕课网日志分析为例进入大数据 Spark SQL 的世界

文本文件进行统计分析：
id, name, age, city
1001,zhangsan,45,beijing
1002,lisi,35,shanghai
1003,wangwu,29,tianjin
.......

table定义：person
column定义：
id：int
name：string
age： int
city：string
hive：load data

sql: query....

Hive: 类似于sql的Hive QL语言， sql==>mapreduce
特点：mapreduce
改进：hive on tez、hive on spark、hive on mapreduce

Spark: hive on spark ==> shark(hive on spark)
shark推出：欢迎，基于spark、基于内存的列式存储、与hive能够兼容
缺点：hive ql的解析、逻辑执行计划生成、执行计划的优化是依赖于hive的
仅仅只是把物理执行计划从mr作业替换成spark作业

Shark终止以后，产生了2个分支：
1）hive on spark
Hive社区，源码是在Hive中
2）Spark SQL
Spark社区，源码是在Spark中
支持多种数据源，多种优化技术，扩展性好很多

SQL on Hadoop
1）Hive
sql ==> mapreduce
metastore ：元数据
sql：database、table、view
facebook

2）impala
cloudera ： cdh（建议大家在生产上使用的hadoop系列版本）、cm
sql：自己的守护进程执行的，非mr
metastore

3）presto
facebook
京东
sql

4）drill
sql
访问：hdfs、rdbms、json、hbase、mongodb、s3、hive

5）Spark SQL
sql
dataframe/dataset api
metastore
访问：hdfs、rdbms、json、hbase、mongodb、s3、hive ==> 外部数据源

Spark SQL is Apache Spark's module for working with structured data.

有见到SQL字样吗？
Spark SQL它不仅仅有访问或者操作SQL的功能，还提供了其他的非常丰富的操作：外部数据源、优化

Spark SQL概述小结：
1）Spark SQL的应用并不局限于SQL；
2）访问hive、json、parquet等文件的数据；
3）SQL只是Spark SQL的一个功能而已；
===> Spark SQL这个名字起的并不恰当
4）Spark SQL提供了SQL的api、DataFrame和Dataset的API；
相关阅读:
C++中的类访问控制
 Docker应用程序容器技术_转
 16C554（8250）驱动分析
 动态调频DVFS_转
 ubifs概述
 ubifs物理存储
 fmt-重新格式化段落
 uniq-删除重复
 sort
join用法
原文地址：https://www.cnblogs.com/kkxwz/p/8493700.html

【慕课网实战】四、以慕课网日志分析为例 进入大数据 Spark SQL 的世界

【慕课网实战】四、以慕课网日志分析为例进入大数据 Spark SQL 的世界