hadoop全家桶
hadoop
hdfs :hadoop分布式文件系统
mapReduce : 计算框架
yarn 资源调度
hive
OLAP、数仓、SQL
数据仓库,提供hive-sql 管理-查询数据
本身不存储和计算数据,默认使用hadoop.mapReduce 作为计算框架,hdfs作为文件系统
hbase
OLTP、NOSQL
键值数据库,基于列式存储
使用自身的计算引擎,hdfs作为文件系统
hive和hbase区别
Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce,Hive中的表纯逻辑。
HBase是物理表,不是逻辑表,提供一个超大的内存hash表,搜索引擎通过它来存储索引,方便查询操作。
spark
内存执行mapReduce任务
场景 :数据清洗和流式计算(对标产品flink,storm)
Spark Streaming 支持从多种数据源获取数据,包括 Kafka、Flume、Twitter、ZeroMQ、Kinesis 以及 TCP Sockets。从数据源获取数据之后,可以使用诸如 map、reduce、join 和 window 等高级函数进行复杂算法的处理,最后还可以将处理结果存储到文件系统、数据库和现场仪表盘中。
hive on spark
hive使用spark作为计算引擎