[转]聊聊列式存储

add by zhj: 终于明白了什么是列式存储，什么是行式存储。这跟数据在存储介质中的存储结构有关，列式存储是指，一列中的数据在存储介质中是连续存储的；行式存储是指一行中的数据在存储介质中是连续存储的。简单的说，你可以把列式数据库认为是每一列都是一个表，这个表只有一列，如果只在该列进行条件查询，速度就很快。

那这两种不同的存储方式对数据的CRUD有什么不同的影响呢？看了一些文章，一般说的是下面两点

1. 行数据库适用于读取出少行，多列的情况；列数据库相反，适用于读取出少数列，多数行的情况。

2. 列数据库可以节省空间，如果某一行的某一列没有数据，那在列存储时，就可以不存储该列的值。

这比行数据库节省空间，我个人感觉列数据库只适合对单个列进行条件查询，不适合对几个列的字段进行多条件组合查询，因为每一列上的查询都是独立完成的，相当于每一列都是一个单独的数据库表，需要每一列的查询结果进行join连接，join的条件是row_key相等，但每列的查询结果集可能很大。当我们对一个列的数据进行切片，存储在不同的机器上时，一般是按主键进行排序，然后分片。额，有点乱。以HBase为例来说吧，它每一列的数、据其实都是按row-key排序的，这样的好处是，一定范围内row-key可以放在一台机器上，当我们用row-key进行查询时，可以很快就查到数据。HBase没有二级索引，如果我想用另一列的字段做为查询条件，那会全表扫描了。这样看来，貌似列数据库只有上面第2点的优势了。

原文：http://blog.csdn.net/dc_726/article/details/41143175

最近看到一篇很好资料，里面三言两语配上几个图就把列式存储(Column-based Storage)讲明白了，牛啊！最喜欢的就是这种浅显易懂就把背景知识讲得明明白白，而不是长篇大论的讲概念。