spark是什么?
spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎
spark和hadoop
spark出现的时间相对较晚,主要功能主要用于数据计算,可以认为是hadoop的升级版本
一次性数据计算
框架在处理数据的时候,会从存储设备种读取数据,进行逻辑操作,然后将处理的结果重新存储到介质中
spark和hadoop的差异
spark和hadoop的根本差异是多个作业之间的数据通信问题:spark多个作业之间数据通信是基于内存,而hadoop是基于磁盘
spark核心模块
- spark core:spark core种提供了spark最基础最核心的功能,spark其他的功能都是在它的基础上进行扩展的
- spark sql:spark sql是spark用来操作结构化数据的组件,通过spark sql,用户可以使用sql或者apache hive版本的sql方言(HQL)来查询数据
- spark streaming:spark streaming是spark平台上针对实时数据进行流式计算的组件,提供了丰富的处理数据流的API
- spark MLib:MLlib是spark提供的一个机器学习算法库
- spark GraphX:GraphX是spark面向图计算提供的框架与算法库