大数据基准测试

大数据基准测试的主要目的是对各种大数据产品进行测试，评估他们在不同硬件平台、不同数据质量和不同计算任务下的性能表现。大数据基准测试需要参考特定的评测基准测试集。

大数据基准测试主要有3个步骤，即数据准备、负载选择和指标度量。

数据准备主要是构造满足大数据特点的各类型的数据。因为真实数据的敏感性和局限性，所以大数据基准测试通常借用工具合成数据。这个过程分为数据筛选、数据处理、数据生成和格式转换。

负载选择是通过选择合适的负载以运行数据产生结果。负载是大数据基准测试需要执行的具体任务，用来处理数据并产生结果。负载可分为计算密集型任务、I/O密集型任务和混合密集型任务。

对于负载选择，有两种策略：

从企业的应用场景出发，模拟企业应用流程，采用应用中的真实数据进行测试。比如银行的账单查询、账目更改等，可以抽象为对数据库表的查询和更改。
从通用的角度来考量，从测试整个大数据处理平台的角度出发，选择负载时需要覆盖分布式计算框架、分布式文件系统和分布式存储等大数据处理平台的主要组件。比如Hadoop平台，负载主要测试Hadoop（包括HDFS和马MapReduce）、数据仓库（hive）和NoSQL数据库的性能

指标度量主要是确定衡量的维度，以便从不同方面评估大数据系统。

可选取每秒执行请求数、请求延时和每秒执行操作数等测试指标。

可选取每秒浮点计算次数、每秒数据吞吐量等测试指标。

在实际的大数据测试中，通常从性能、能耗、性价比和可靠性4个维度进行度量。

分类	工具名称	测试场景	备注	特点
微型负载专用工具	TeraSort	文本数据排序	Hadoop自带的工具	应用场景较单一，但效率高、成本低。另外，它无法整体衡量大数据平台的性能。
	Gridmix	Hadoop集群性能	Hadoop自带的工具
	YCSB	NoSQL数据库性能	Yahoo
	LinkBench	存储社交图谱和网络服务的数据库	Facebook
	sysbench	MySQL基准测试工具	开源工具
	TestDFSIO	HDFS基准性能测试	Hadoop自带的工具
	PerformanceEvaluation	HBase性能测试	HBase自带的工具
	NNBench	Namenode硬件加载过程	Hadoop自带的工具
	MRBench	MapReduce小型作业的快速响应能力	Hadoop自带的工具
综合类测试工具	HiBench	微型负载搜索业务、机器学习和分析请求	英特尔	场景覆盖面比较广，能够较全面地考量大数据平台执行不同类型任务的性能，通用性好。
	BigDataBench	搜索引擎、社交网络和电子网络	中科院计算所
	CloudBM	云数据管理系统基准测试	CloudBM Web Solutions
	AMP Benchmarks	实时分析类应用场景	UC Berkeley Lab
	TPCx-HS kit	在MapReduce或spark流基础上的实时分析	TPC
端到端的测试工具	BigBench	大数据离线分析	TPC	实现了对企业特定业务的模拟，与企业的应用场景结合紧密，可以满足企业大数据业务全流程的模拟和测试。

1.作者：Syw
2.出处：http://www.cnblogs.com/syw20170419/
3.本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接，否则保留追究法律责任的权利。
4.如果文中有什么错误，欢迎指出。以免更多的人被误导。

相关阅读:
pyspark读取parquet数据
python求时间差
pandas索引操作之loc，iloc，ix等方法
pandas的concat和drop函数
mysql语句的书写顺序和执行顺序
hive的lower，upper，length，concat，lpad，rpad，cast，split函数简述
hive的floor函数，ceil函数，round函数
Pandas建立空的dataframe和cumsum累加函数
Python基础笔记二之求序列均值、标准差、中位数、分位数
NAT实验

原文地址：https://www.cnblogs.com/syw20170419/p/15555376.html