spark SQL和hive到底什么关系

Hive是一种基bai于duHDFS的数据仓库，并且提供了基于SQL模型的，针对存储了大数zhi据的数据仓库，进行分布式dao交互查询的查询引擎。

SparkSQL并不能完全替代Hive，它替代的是Hive的查询引擎，SparkSQL由于其底层基于Spark自身的基于内存的特点，因此速度是Hive查询引擎的数倍以上，Spark本身是不提供存储的，所以不可能替代Hive作为数据仓库的这个功能。

SparkSQL相较于Hive的另外一个优点，是支持大量不同的数据源，包括hive、json、parquet、jdbc等等。SparkSQL由于身处Spark技术堆栈内，基于RDD来工作，因此可以与Spark的其他组件无缝整合使用，配合起来实现许多复杂的功能。比如SparkSQL支持可以直接针对hdfs文件执行sql语句。

相关阅读:
笔记75 微服务笔记2
笔记73 高级SSM整合2
笔记72 高级SSM整合
笔记71 SSM整合
笔记70 Spring Boot快速入门（八）（重要）
笔记69 基于Redis的zSet集合做数据缓存实现分页查询
如何理解多租户架构？
Tomcat8.0源码编译
HTML语言
String类

原文地址：https://www.cnblogs.com/eyesfree/p/13712757.html