Kudu专注于大规模数据快速读写，同时进行快速分析的利器

Kudu专注于大规模数据快速读写，同时进行快速分析的利器

注：由于文章篇幅有限，获取资料可直接扫二维码，更有深受好评的大数据实战精英+架构师好课等着你。

大数据技术交流QQ群：207540827

速点链接加入高手战队：http://www.dajiangtai.com/course/112.do

Kudu是什么

Kudu是一个分布式列式存储引擎/系统，由Cloudera开源后捐献给Apache基金会很快成为顶级项目。用于对大规模数据快速读写的同时进行快速分析。

官网：https://kudu.apache.org/

Kudu运行在一般的商用硬件上，支持水平扩展和高可用，集HDFS的顺序读和HBase的随机读于一身，同时具备高性能的随机写，以及很强大的可用性（单行事务，一致性协议），支持与Impala/spark计算引擎。

近年来Kudu的应用越来越广泛，在阿里、小米、网易等公司的大数据架构中，Kudu 都有着不可替代的地位。

Kudu出现的背景

Kudu给人的感觉是HDFS+HBase的杂合体，为什么会出现呢？

在Kudu出现之前，需要为不同形态的数据需要分别存储以适应不同场景：

最终导致几个问题：

（1）数据过度冗余

数据需要存储多份以支撑多个应用，这样造成了存储等资源的浪费。

（2）架构复杂导致开发、运维、测试成本高

同时维护多套存储系统，架构复杂，开发、运维、测试成本相对较高。

（3）数据不一致容易误解

多套数据由于程序bug或者其他原因很容易出现数据不一致的情况，往往会造成业务方的误解。

为了解决上述问题业界做了很多尝试，例如HBase+Hive整合：

上述方案虽然在一定程度上起到了作用，但是依然改变不了HBase不适合高吞吐量离线大数据分析的事实。

所以Kudu一出现定位就是Fast Analytics on Fast Data，是一个既支持随机读写、又支持 OLAP 分析的大数据存储引擎：

从上图可以看出，Kudu 是一个折中的产品，它平衡了随机读写和批量分析的性能。从 KUDU 的诞生可以说明一个观点：底层的技术发展很多时候都是上层的业务推动的，脱离业务的技术很可能是空中楼阁。

当然Kudu身上还有很多概念或者标签，有分布式文件系统（好比HDFS），有一致性算法（好比Zookeeper），有Table（好比Hive Table），有Tablet（好比Hive Table Partition），有列式存储（好比Parquet），有顺序和随机读取（好比HBase），所以看起来kudu是一个轻量级的 HDFS +Zookeeper + Hive + Parquet + HBase，除此之外，kudu还有自己的特点，快速写入+读取，使得kudu+impala非常适合OLAP场景，尤其是Time-series场景。

由于文章篇幅有限，获取资料可直接扫二维码。

大数据技术交流QQ群：207540827
相关阅读:
Ruby单例方法和实例方法
 Silverlight本地化和全球化
 多线程 or 多进程 (转强力推荐)
循环pthread_create导致虚拟内存上涨
 int在linux上的保存情况
 查看数据流的流程
 查看linux系统版本,内核,CPU,MEM,位数的相关命令(转)
0/1背包问题
 linux下计算程序运行时间
 夸平台夸字符编码问题
原文地址：https://www.cnblogs.com/dajiangtai/p/12461999.html

Kudu专注于大规模数据快速读写，同时进行快速分析的利器

注：由于文章篇幅有限，获取资料可直接扫二维码，更有深受好评的大数据实战精英+架构师好课等着你。

大数据技术交流QQ群：207540827

速点链接加入高手战队：http://www.dajiangtai.com/course/112.do

Kudu是什么

Kudu出现的背景

由于文章篇幅有限，获取资料可直接扫二维码。

大数据技术交流QQ群：207540827