TPC-DS是一个面向决策支持系统的包含多维度常规应用模型的决策支持基准,它对决策支持系统的几个普遍适用方面进行建模,包括查询和数据维护。TPC基准测试的目的是为行业用户提供相关、客观的性能数据。TPC-DS使大数据系统等新兴技术能够执行基准测试。
这个基准测试有以下几个主要特点:
- 采用星型、雪花型等多维数据模式。
- 包含7张事实表,17张纬度表,平均每张表含有18列。
- 包含99个测试用例,遵循SQL 99和SQL 2003的语法标准。
- 这个测试集包含对大数据集的统计、报表生成、联机查询、数据挖掘等复杂应用, 测试场景贴合商业实际
- 几乎所有的测试案例都有很高的IO负载和CPU计算需求
TPC-DS的难点和挑战主要有:
- 数据集规模大,例如事实表store_sales,单表超过280亿行。
- 面向真实零售决策场景,SQL非常复杂:覆盖SQL99和2003的核心部分以及OLAP标准;既包含报表类ad-hoc低延时查询,又包含海量数据挖掘高吞吐分析查询。
- 测试项多且维度广:既要高性能、高可靠、高可用、高性价比,又要ETL和数据更新的ACID能力。
TPC-DS的性能衡量关键指标有:
- QphDS@SF:每秒的有效查询数据量的性能指标,值越大,性能越好
- $/kQphDS@SF:反映每秒查询数据量的性价比指标,值越小说明性价比越高
工作负载介绍:
- 测试数据加载 :主要包括: 被测系统准备、数据文件生成、测试数据库创建、基础表创建、数据加载、约束验证、辅助数据结构( 如索引) 创建、表和辅助数据统计分析等。
- Power测试:用于评测数据库对单个查询流的处理能力。
- Throughput测试:用于测试DBMS对多个查询流并发查询和操作的处理能力,分为数据查询和数据维护各两个子步骤
SQL 特征及数量
测试模型关系