Cassandra 数据模型

Cassandra 数据模型
Cassandra的数据模型类似于关系型数据库的模型，且提供了与SQL语言非常类似的CQL语言进行操作。

但是Cassandra的数据模型类似于多层键值对结构，与关系型数据库存在巨大差别。

本文基于: [cqlsh 5.0.1 | Cassandra 3.11.2 | CQL spec 3.4.4 | Native protocol v4]

目录:
多层KV结构

Cassandra 的数据模型由 keyspace (类似关系型数据库里的database), column family（类似关系型数据库里的table), 主键（key）和列（column）组成。

对于一个 column family 不应该想象成关系型数据库中的表, 而是一个多层的key-value结构:
```
Map<PartitionKey, SortedMap<ClusteringKey, Column>>
```
我们使用CQL来描述:
```
create table table1 (
    key1 int,
    key2 int,
    content text,
    PRIMARY KEY ((key1), key2)
);
```
在上述CQL创建的表(column family)中，key1是 partition key, 而 key2 是 clustering key, key1 和 key2 称为主键(PRIMARY KEY)

Cassandra支持更复杂的表结构:
```
CREATE TABLE table2 (
    pkey1 int,
    pkey2 int,
    ckey1 int,
    ckey2 int,
    content text,
    PRIMARY KEY ((pkey1, pkey2), ckey1, ckey2)
);
```
此时的数据结构可以描述为:
```
Map<pkey1, Map<pkey2, SortedMap<ckey1, SortedMap<ckey2, content>>>>
```
作为一个分布式数据库, Cassandra 根据 partition key 决定数据如何在集群的各个节点上分区。clustering key 决定数据在分区内的排序。

查询

下文中将以 table2 为例介绍 cassadra 数据模型的特性。

从上文使用Map描述的表结构可知，我们无法根据非主键进行查询(如table2中的data):
```
SELECT * FROM table2 WHERE content='a'; -- error
SELECT * FROM table2 WHERE pkey1 = 1 AND content='a'; -- error
SELECT * FROM table2 WHERE pkey1 = 1 AND pkey2 = 1; -- right
```
通常情况下，在对形如((pkey1, pkey2), ckey1, ckey2)这样的主键列进行查询时需要注意:
- partition key 仅支持精确查询(=, in), 不能进行范围查询(>, <, >=, <=)。注: Cassandra 不支持 != 查询。
- 涉及多个 partition key 的查询必须提供前置 partition key 的精确值。即若要查询 pkey2 则必须提供 pkey1 的精确值。
- 涉及 clustering key 的查询，必须提供所有 partition key 的精确值
- 涉及的 clustering key 不能跳跃，若要根据 ckey2 进行查询则必须提供 ckey1 的精确值
(请不要记忆上述结论，根据Cassandra的内部数据结构很容易明白可以进行什么样的查询)

下面根据具体示例说明。

仅涉及partition key:
```
SELECT * FROM table2 WHERE pkey1 = 1; -- right
SELECT * FROM table2 WHERE pkey1=1 AND pkey2=1; -- right
SELECT * FROM table2 WHERE pkey2=1; -- error
```
涉及一个 clustering key:
```
SELECT * FROM table2 WHERE pkey1=1 AND pkey2=1 AND ckey1>0; -- right
SELECT * FROM table2 WHERE pkey1=1 AND ckey1>0; -- error
SELECT * FROM table2 WHERE ckey1=1; -- error
```
涉及多个 clusterin key：
```
SELECT * FROM table2 WHERE pkey1=1 AND pkey2=1 AND ckey1=1 AND ckey2>0; -- right
SELECT * FROM table2 WHERE pkey1=1 AND pkey2=1 AND ckey2>0; -- error
SELECT * FROM table2 WHERE pkey1=1 AND pkey2=1 AND ckey1>0 AND ckey2=1; --error
```
排序

Cassandra 支持查询结果按照 clustering key 进行排序，不过排序功能也非常有限:
```
SELECT * FROM table2 WHERE pkey1=1 AND pkey2=1 ORDER BY ckey1; -- right
SELECT * FROM table2 WHERE pkey1=1 AND pkey2=1 ORDER BY ckey1, ckey2; -- right
SELECT * FROM table2 WHERE pkey1=1 AND pkey2=1 ORDER BY ckey2; -- error
```
使用排序功能和涉及 clustering key 的查询一样，必须提供所有 partition key 的精确值(= 或 in 运算符)。这是因为 Cassandra 仅支持单个节点上数据的排序。

涉及多个 clustering key 的排序必须按照 clustering key 的顺序进行排序不能跳跃，即可以ORDER BY ckey1, ckey2, 不能ORDER BY ckey2。

默认情况下只能进行升序排列，即ORDER BY ckey1 ASC, ORDER BY ckey2。

这是因为Cassandra只能根据每个节点上"SortedMap"固有的顺序排列查询结果，不过我们可以在创建表时自定义排序规则:
```
CREATE TABLE table2 (
    pkey1 int,
    pkey2 int,
    ckey1 int,
    ckey2 int,
    content text,
    PRIMARY KEY ((pkey1, pkey2), ckey1, ckey2)
) WITH CLUSTERING ORDER BY(ckey1 DESC, ckey2 ASC);
```
聚合

Cassandra 允许根据主键列定义的顺序进行聚合:
```
SELECT count(*) FROM table2 GROUP BY pkey1; -- right
SELECT count(*) FROM table2 GROUP BY pkey1, pkey2; -- right
SELECT count(*) FROM table2 GROUP BY pkey1, pkey2, ckey1, ckey2; -- right
SELECT count(*) FROM table2 WHERE pkey1=1 GROUP BY pkey2; -- error
```
这种聚合可以对多个节点上的数据进行聚合处理。

对于带有WHERE条件的查询, Cassandra 仅支持对单个节点上的数据进行聚合，就是说必须提供 partition key 的精确值才能进行聚合:
```
SELECT count(*) FROM table2 WHERE pkey1=1 AND pkey2=1 GROUP BY ckey1; -- right
SELECT count(*) FROM table2 WHERE pkey1=1 AND pkey2=1 GROUP BY ckey1, ckey2; -- right
SELECT count(*) FROM table2 WHERE pkey1=1 AND pkey2=1 GROUP BY ckey2; -- error
SELECT count(*) FROM table2 WHERE pkey1=1 GROUP BY pkey2; -- error
```
这一点与 Cassandra 查询时的特征是一致的。

Cassandra 支持 sum, min, max, count, distinct 等聚合功能, 不支持HAVING语句。

ALLOW FILTERING

上文我们提到一些 Cassandra 不支持的查询:
```
SELECT * FROM table2 WHERE ckey1=1;
```
可以看到 Cassandra 的报错信息:
```
Cannot execute this query as it might involve data filtering and thus may have unpredictable performance. If you want to execute this query despite the performance unpredictability, use ALLOW FILTERING
```
对于 Cassandra 多层嵌套KV的数据结构来说，不可能通过 key 查找到相应数据，只能搜索所有的数据来完成此查询。

对于一个有100万条数据表而言，ckey1=1的记录可能仅占5%, 此时 Cassandra 仍可以在可接受的时间内完成查询。但是，Cassandra 并不了解此查询需要搜索所有数据，因此需要操作者使用 ALLOW FILTERING 允许 Cassandra 扫描所有数据:
```
SELECT * FROM table2 WHERE ckey1=1 ALLOW FILTERING;
```
Cassandra 官方对于ALLOW FILTERING 进行了非常详尽的说明，可以参考ALLOW FILTERING explained。

作者提醒， ALLOW FILTERING 可能消耗大量时间和资源，请谨慎在生产环境下使用此功能。

次级索引

除了主键列之外我们可以为 clustering key 和普通的值建立次级索引(secondary index)。

次级索引是一个另外的key-value映射，可以根据索引列直接查找到数据。

创建索引:
```
CREATE INDEX idx_ckey1 on table2(ckey1);
CREATE INDEX idx_content on table2(content);
```
使用索引进行查询:
```
SELECT * FROM table2 WHERE ckey1=1; -- right
SELECT * FROM table2 WHERE content='a'; -- right
SELECT * FROM table2 WHERE ckey1>0; -- error
SELECT * FROM table2 WHERE pkey1=1 AND ckey1=1; --error
```
索引仅支持单独、精确查询，不支持范围查询或者与主键(其它索引)联合查询。

请阅读官方文档When to use an index，了解索引的使用场景。
相关阅读:
如何对抗信息茧房？
术语
 2021.07.17软件更新公告
 【C#】C#中使用GDAL3（二）：Windows下读写Shape文件及超详细解决中文乱码问题
 【C#】C#中使用GDAL3（一）：Windows下超详细编译C#版GDAL3.3.0（VS2015+.NET 4+32位/64位）
k8s使用私有镜像仓库
 四、Abp vNext 基础篇丨领域构建
 Abp vNext 番外篇-疑难杂症丨认证授权
 三、Abp vNext 基础篇丨分层架构
 知识全聚集 .Net Core 目录篇
原文地址：https://www.cnblogs.com/Finley/p/9536116.html

Cassandra 数据模型

多层KV结构

查询

排序

聚合

ALLOW FILTERING

次级索引