Hadoop性能测试
一.引言
ApacheHadoop 是对Google 的GFS(Google File System)BigTable的一个开源实现,具有高扩展性、高效性、高容错性、低成本以及易于虚拟化等特性,是目前行业事实的应用标准。
大数据基准测试作用。1)它能提升大数据领域的技术、理论和算法,并挖掘出大数据的潜在价值和知识。 2)它能帮助系统开发人员设计系统功能、调优系统性能、提升部署方法[5]。 3)它容许用户比较不同系统的
性能,帮助选购产品。
二.大数据基准测试标准化现状和测试工具
2014年,TPC发布了基准测试标准TPCx-HS和配套的测试工具,测试重点主要是性能验证、性价比、功耗和可用性。
三.性能测试内容
HDFS读写,MapReduce执行情况和NoSQL数据库能力。
TestDFSIO基准测试:进行大文件读写,衡量指标为单个文件吞吐量和执行时间;Yarn基准测试:(1)使用Wordcount统计输入数据中每个单词的出现次数,输入数据使用Hadoop RandomWriter产生随机数据,衡量指标为执行时间,(2)使用Sort对大数据进行排
序,输入数据使用Hadoop RandomTextWriter 生成,衡量标准为执行时间,(3)使用Terasort对大数据进行排序,输入数据由Hadoop TeraGen 产生,衡量标准是时间;Hive基准测试:对表进行简单查询操作、连接操作、插入操作、分组操作和map连接操作,衡量标准是执行时间。
d
hbase的特性有哪些
四.性能测试工具
1. 自带工具
TestDFSIO主要用于HDFS基准性能测试,Sort工具用于MapReduce负载测试,PerformanceEvaluation工具主要用于Hbase 性能测试,MRbench检验小型作业的快速响应能力,NNBench测试Namenode硬件加载过程,Gridmix 可以通过模拟Hadoop Cluster中的实际负载来评测Hadoop性能。
2.HiBench
包括HDFS、MapReduce、SQL、网页搜索、数据分析以及机器学习等性能测试。
3.YCSB
适用于Hbase 等NoSQL组件。
4.TPCx-HS Kit
包含四个模块:HSGen数据生成器;HSDateCheck检查数据集和副本的符合性;HSSort 数据排序;HSValidate排序后的数据校验。
主要进行吞吐量、性价比、可用性和代表功率的测试。
5.Bigbench
第一个端到端的大数据分析测试工具,含有丰富的查询集合,包含了30个查询负载。
四.测试一般过程
测试过程主要包括版本部署、运行状态检查、数据准备、测试脚本运行、数据收集展示和环境清理。通过Node.js模拟浏览器操作、Shell脚本进行数据准备和运行、Nmon工具来监控主机CPU等、Grafana展
示结果数据。
数据生成,一般对真实的数据进行建模,保持其特征进行扩展,但是需要解决两方面问题,一方面是应用特征的保持,另一方面的问题是数据生成的速度和代价。
负载选择,按照系统资源消耗可以分为:计算密集型(信息查询),I/O密集型(机器学习模型迭代)和混合密集型pagerank。
集规模,测试与实际集规模相差较大,规模和复杂性都较小。
软件兼容性,各种各样的商业变式出现。
参考文献
[1]姜春宇,孟苗苗. 大数据基准测试流程与测试工具[J]. 信息通信技术,2014,(06):43-46+51.
[1]陈凯,魏凯,周晓敏. 大数据平台基准测试标准化思考[J]. 电信网技术,2015,(02):14-17.
[1]尤元建,吴洪学. Hadoop性能测试自动化研究[J]. 软件导刊,2016,(12):16-18.
[2]揣立武. Hadoop平台基准性能测试工具的设计与实现[D].哈尔滨工业大学,2015.
[3]张新玲,颜秉珩. Hadoop平台基准性能测试研究[J]. 软件导刊,2015,(01):30-32.