第32卷第5期机电#$%&'()Vol.32,No.5 2019年9月Development&Innovation of M achinery&E lectrical P roducts Sep.,2019
文章编号:1002-6673(2019)05-061-03
国产化MPP数据库测试指标及测试方法研究
付玉涛,杨美&
(北京赛迪软件测评工程技术中心有限公司,北京10004$)
摘要:随着大数据的发展,对数据存储、数据查询响应时间的要求越来越高,MPP数据库(大规模并行处理数据库)成为大数据应用所需产品之一$本文针对MPP数据库提出一套从MPP数据库功能、性能、安全性、高可用性进行客观评价的测评指标及其测试方法,为选用国产MPP数据库提供一套依据,为指导产品的研发和性能的不断改进提供指导意义。
关键词:大数据;国产化%MPP数据库%测评指标
中图分类号:TP39文献标识码:A doi:10.3969/j.iss/.1002-6673.2019.05.021
Research on the Test Index and Test Method of Domestic MPP Database
FU Yu-Tao,YANG Mei-Yu
(Beijing CCID Software Test Engineering Technology Center Co.Ltd.,Beijing100048)
Abstract:With the development of the Big Data.The demand for the response time of data storage and data query is getting higher and higher. MPP database(Massively Parallel Processor)has become one of the products needed for Big Data application.From the aspects of MPP database function,performance,security and high availability,this paper presents a set of evaluation indexes and testing methods.It provides a basis for the selection of the domestic MPP database,and provides guidance for the product's R&D and performance continuous improvement.
Key words:big data;domestic;massively parallel processor;evaluation index
0引言
随着当前对数据挖掘、数据分析的需求越来越大,对
数据规模、数据查询响应速度等的要求也越来越高)从大
规模数据、复杂关联查询、即席查询的需求考虑,无论是
电信运营商还是金融用户,数据存储产品包括:传统数据
库(Hadoop[1](大规模MPP〔2:(Massively Parallel Processing)
集*基于Hadoop的设计,编程较为复杂,虽然随着HP Vertica在Facebook系统上取得巨大成功,SQL-on-Hadoop
数据库,还有*MPP数据库用享集的技术,接口符合标准的SQL法规,是从的关系数据库产品数据库论来的,在上大大于Hadoop技术,
合大规模数据、复杂关联查询、即席查询的三大需求,MPP数据库必然是大数据应用需产品之一93:*
修稿日期:2019-08-28
作者简介:付玉涛(1982-),女,山东聊城人,硕士,工程师$从事军用软件试验鉴定与研究工作;杨美饪(1985-),女,山西运城;人,硕士,工程师$从事军用软件试验鉴定与研究工作
前在MPP数据库,对、、、高可用性的客观评价缺少相应的依据*,合的、用的MPP数据库测评标及测法.重大,在帮助用户评估和选型MPP数据库的同时,也能够对数据库的有着要的*
对产MPP数据库的,用于MPP数据库、、、高用的测评,为大用户用评MPP数据库据*
1MPP数据库简介
MPP数据库,即大规模数据库*的MPP 系统通过Share-Nothing的方式实现大规模并行处理,在数据库享集中,的分
上,有的存储系统存系统,
数据据数据库模应用分上,
个数据节点通过专用网络或者商业通用网络互相连接,协计算,为整体数据库服,主要用于处理大规模数据*其中最主要的特点在于:有独立的CPU 计算资源、内存资源、网络资源和硬盘资源等,同时数据
61
•测试与控制•
分散存储在不同的节点上!MPP数据库整体结构如图1
所示!
图1MPP数据库整体结构图
Fig.l MPP framework
2测评指标及方法研究:
2.1测试指标研究
2017年9月至2018年1月,项目组对神舟通用、南
大通用、武汉达梦、人大金仓等国内12个厂商的MPP数:据库进行了测试和研究,并对数据库业务应用进行了深
入分析。为更加规范地开展MPP数据库测试及符合性评
价,依据GB/T16260《软件工程产品质量》和GB/T20273《信息安全技术数据库管理系安全技术要求》,结合:
MPP数据库自身的特点,研究并制定了一套MPP数据库
产品功能、性能、安全性、高可用性的测评指标体系!如图
2所示!
Fig.2MPP evaluation index system
(1)功能指标:主要评价MPP数据库应具有的基本
功能。包括:①SQL标注支持:支持基本的数据类型的,支持基本的数据入、、更、等SQL语法,内置函数;②表分区管理:加表分区,分区,支持hash、range、list分区;③表空间管理:创建表空间,,用;$数据分管理:持•
表分布,支持分布,持循环表分布;⑤数据导入
导出:持标准CSV文件入,支持从MPP数据库中将
数据为CSV件。
(2)性能指标:主要评价MPP数据库的业务性能。指
标包括数据导入导出速度、精确查询响应时间、业务!
(3)安全性指标:评价MPP数据库的基本安全防御
能力。包括、、数据加!
(4)高可用性指标:评价MPP数据库集查询接入节点的高可用性。指标包括在集节点故障、、数据节点进程、数据节点务,不业务访问。
2.2功能、安全性、高可用性测试方法研究
对、安全性、高可用性的测试指标的测试,测试方法及流程可概括为三方面:
(1)数据:用于MPP数据库功能、安全性、高可用性测试的数据准备!
(2)生成SQL测试:用于功能、安全性、高可用性测试!
(3)结及分析:用评价在同数据规
和不同节点下,测试SQL语句执行的时间特性和资源利用特性!
图3功能、安全性、高可用性测试流程
Fig.3Function,security and high availability testing process 2.3性能测试方法研究
2.3.1测试数据表设计
(1)日志流水表:包括DNS、FLOW等五张表。以DNS 表设计为例,脚本如:
DDL:CREATE TABLE DNS(SIP INT8,DIP INT8, SPORT INT4,DPORT INT4,CAPTIME INT8,FLAG INT4, TTL INT4,PTC INT2,ISP VARCHAR(3),AREA VAR-CHAR(3),QTYPE INT4,RY INT8,HY INT2,QT VAR-CHAR(512),RR VARCHAR(8000));
(2)配置信息表:包括PZ_JK、PZ_JKZB和CARRI-ER_CELL_INFO三张表,PZ」K表的JKID列为主键列,JKID列和JK表中的JKID列关联;PZ_JKZB表的Pzid列为主键列,Pzid列和JKDX表中的JKID列关联;CARRI-ER_CELL_INFO表的ID列为主键列,ID列和QYDX、JKDX表中的CZID列关联。以PZ_JK表设计为例,脚本如:
DDL:CREATE TABLE PZ_JK(JKID INT16,CLX INT, CMS INT16,CXID INT,CLID INT,CRID INT,CXM VAR-CHAR(20),CSJ TIMESTAMP, CZT INT);
2.3.2数据导入导出测试方法
数据导入导出测试方法同样可归纳为三个方面:
(1)数据:根据设计的,搭数据境并数据!
(2)数据导入/导出:执行数据导入导出语句。
62
•测试与控制•
(3)记录数据导入导出速率#
2.3.3精确查询、业务模拟测试方法
(1)精确查询:①使用导入的DNS表的数据,
分别对QT和SIP列进行精确查询,且返回查询
结果集中前100条数据,获取CAPTIME列符合
过滤精确条件的查询结果,执行10个并发,运行
10分钟;②使用导入的DNS表的数据,对SIP列
进行等值查询,并基于时间列进行降序排序,获
取符合精确条件的最近100条查询结果#
(2)业务模拟:在导入两天的DNS表中持续加
载3小时数据,且每小时触发删除1次历史数据,
在整个过程中执行a-e:
a.5分钟统计:DNS表SIP、DIP、QT在5分钟内访问量最大的100000条;
b.1小时统计(延时12分钟):1小时内JK表与PZ_JK表关联的JKID列中CLX'JKID最多的10个配置;
c.1小时统计(延时18分钟):1小时内QYDX表中CDZ列最多的100000条;1小时内QYDX表中CMDZ列
最多的100000条;1小时内QYDX表中CDZ和CMDZ列最多的100000个;1小时内CARRIER_CELL_INFO表的PROV_CODE、CITY_CODE、DISTRICT_CODE列的分组结果;
d.1小时统计:1小时内PZ」KZB表的PzlxID列、JKDX表的JKID列、CARRIER_CELL_INFO表的PROV_CODE列、CITY_CODE列、DISTRICT_CODE列;
e.模拟300用户,分别在DNS表和QYDX表基于1天时间范围,对DNS表的SIP、QT和QYDX表的CDZ、CMDZ进行精确查询;
a-e中各业务结果如图4所示Total Passed^24.081Total Fail«di0Total Stoppadi0Avormao Rowaonx“me
Fig.4a-e Transaction performance results
3结束语
本文从MPP数据库的应用出发角度,研究并制定了一套对其功能、性能、安全性、高可用的依据和,并对精确查询、业务模拟进行,:
的可行性#中,用户可根据实际使用合,的个
中的业务模拟分组统计及精确查询,MPP数据库应用的,在的的大量实验和总结的基础上做进一步的研究#
参考文献:
[1]辛晃,易兴辉,陈震宇.基于Hadoop+MPP架构的电信运营商网络
常见mpp数据库
数据研究.电信科学,2014,4.
[2]刘燕,杨晓东,MPP系统的关键技术研究[J].计算机工程与设计,
2000.
[3]田雯,刘倩,孙红恩.MPP数据库在中国移动大数据应用中的前景
分析[J].电信工程技术与标准化,2017.
关于“万方数据一
经国家新闻出版署正式批准,贯彻党和国家有关出版方针、政策,执行国家有关法律、法规,版式规范的刊物,均可入网"万方GH—
—GI化期刊”。
"万方GH—
—G字化期刊”属国家“九P”重点科技攻关项目,是专门收录中国核心期刊的大型G据库系 统&由国家科技部g织实施,中国科技信息研究所万方G 据股份有限公司具体操作运行,Z1998年开发运作以来,集纳了3000多种学术期刊的全文内容,其中既包容自然科学类期刊,又吸纳人文社会科学类期刊,成为"国家遴 选和评价中国核心期刊”的重要依据&
"万方GH—
—G字化期刊”的建设,不仅可以同期生成"中国科技论文与引文G据库”,为科技部中国科技论文统计分析工作服务,而且同期建设的"中国核心期刊遴选教据库”是我国文献计算计量机构研究、测评核心数字化期刊”简介
期刊的重要基础。不仅通过因特网向全球宣传和推销中国优秀期刊,而且向国家著名检索机构推介中国核心期刊& "万方GH—
—G字化期刊”作为我国核心期刊评的候选GH库系统,还是首家网上中文期刊出版加盟。
其独有的以刊为单位上网的风格适应了读者的阅读习惯,利于期刊的网上推广和住处交流,其特定的HTML和PDF 等开放式技术路线,更方便编辑部扩充报道内容和与国际接轨。其个性化的在线收费订阅系统,授权编辑部浏览全文,并查阅网上读者使用和期刊被利用情&;其专业化的检索功能,特辟引文检索和影响因子指标查询。
:“万方GH—G字化期刊”是向全世界展示中国期刊的重要窗6,是开辟网上发行渠道的有效手段,是推进期刊国际化、网络化的良好途径&
63