Analysis Service 2012 Architecture – One Product, Two Models
在之前SQL Server 2008 R2 版本中的分析服务实际上只有一个版本 – 就是我们所熟悉的多维数据模型 Multidimensional Model. 但是在 SQL Server 2012 版本中, 除了这个多维数据模型外还多了另外一种模型 – 表格模型 Tabular Model.
多维数据模型和表格模型本质上是完全不同的两个产品, 所以在安装分析服务的时候就需要选择安装的实例是 Multidimensional Model 方式还是 Tabular Model 方式. 尽管这两种模型在底层很多方面是相同的, 但是仍然是两种不同的产品, 所以安装的时候两者只能选择其一. 并且这两种模型下的项目也不能相互转换, 那么如果需要安装另外一模型的时候就需要重新安装新的实例, 然后选择合适的模型.
表格模型 Tabular Model
在表格模型中,表格模型数据库是最高级别的,这个数据库的概念和我们所熟悉的关系型数据库非常相似. 分析服务的实例可以包含很多数据库, 并且每个数据库关联到一个单独的业务解决方案或者项目, 所以不会存在比如在建某张报表的时候需要去跨库查询.
表格模型的设计是在 SSDT (SQL Server Data Tools) 中完成的, 那么在SSDT中的每一个项目都对应着分析服务的一个数据库.
表格模型的数据库也是由很多表组成的, 这里的表与关系型数据库中的表也很类似, 但是表格模型中的表对列的类型是有所要求的, 比如列的类型智能是 Integer 整数, text 文本 或者 Decimal 小数类型.
并且与关系型数据库还有所不同的就是, 表格模型可以在查询阶段定义表与表之间的关系,不像普通的SQL 中所有查询表的关联关系需要预先被定义好才能使用. 表格模型中表之间的关系可以标识为Active 或者 inactive, 那么在执行查询阶段表与表之间的关系可以在实际调用的时候来决定采用哪种关联.
表格模型的表之间的关系只能是一对多并且只允许单列关联, 没有一对一或者多对多, 也不支持自引用的关联关系.
表格模型采用的是内存分析引擎, 相当于从磁盘中拷贝了一份数据到内存中, 这样即使分析服务重启磁盘上的数据也不会丢失.
表格模型采用的是内存中列式存储技术 xVelocity in-memory analytics engine, 这样能很大的提升查询的性能, 而关系型数据库采用的是传统的行式存储格式.
了解更多 xVelocity 请访问 http://msdn.microsoft.com/zh-cn/library/hh922900.aspx
在表格模型中定义的查询和表达式使用的是DAX 语句 (Data Analysis eXpressions), 这是表格模型和PowerPivot 用到的本地查询语言. 使用客户端工具Power View 能生成DAX 查询从表格模型中查询出数据来. 但基于表格模型的数据库也支持MDX查询, 所以它能够兼容支持MDX的客户端查询工具.
为了增加用户体验,可以直接在表格模型的表中设计层次结构模型.
The Multidimensional Model 多维数据模型
在最上层多维数据模型和表格模型几乎是一样的, 数据被分析服务数据库管理, 数据库的设计也是在SSDT 或者以前版本的BIDS (BIDS 只支持多维数据模型) 中完成的.
数据的组织形式是一系列的Cube 和 Dimension 组成, 而不像表格模型中直接使用的是表. 并且每一个Cube 中是有一个或者多个 Measure Group,并且每一个Measure Group 对应的是数据仓库中的一个事实表 Fact Table. 每一个Cube 包含两种Dimension, 一种是普通的Dimension, 另一种就是Measure Dimension. 还有其它很多的概念, 应该来说多维数据集模型现在已经非常成熟了, 在功能和特性方面都很完善, 而表格模型要稍微欠缺点.
比如在数据存储方面, 多维数据集模型有三种存储方式:
- Multidimensional OLAP (MOLAP) 所有的数据都存储在分析服务中
- Relational OLAP (ROLAP) 分析服务中不存储数据, 当请求Cube 时, 数据是从关系型数据仓库中查询.
- Hybrid OLAP (HOLAP) 与ROLAP 类似, 但是部分预先聚合的值可以保存在MOLAP中.
另外的一个区别就是Multidimensional Model 在定义查询和表达式时只支持MDX, 并且目前有很多第三方客户端工具也都支持MDX, 已经形成了一个业界的标准. 但是在SQL Server 2012 版本之后, Power View 支持同时查询 Multidimensional Model 和 Tabular Model.
Why Have Two Models?
Multidimensional Model 的设计是按照32位系统1个或者2个处理器并且小内存的标准来设计的, 而现在硬件的发展为了追求更高的效率 , 这种设计存在瓶颈.
学习Multidimensional Model 的成本比较高, 包括像MDX 语言它们的一些概念和处理过程需要花费比较多的精力来学习, 而微软希望让这种学习的过程变得更加简单以吸引更多的用户.
Self-Service BI 市场的壮大需要更简单的工具和更简单的概念来帮助用户完成自定义的BI开发.
在表格模型中, 数据类型更加精简和准确, 这样不同的模型给开发者也会带来更多的选择.
对于两者如何选择? 微软也明确的表示不会放弃 Multidimensional Model, Tabular Model 不会是它的代替品. 所以对于开发者可以根据自己掌握的程度来选择合适的模型, 并且以后分析服务的真正趋势是朝着云服务的方向来发展. 目前微软正在建设基于云的BI产品, 比如基于云的分析服务再加上 SQL Azure, SQL Azure Reporting Services 和 Office 365 等等.