Bootstrap 法与H-L 法中位数差值区间检验在非劣效试验中的
模拟比较研究*
*基金项目:四川养老与老年健康协同创新中心项目(YLZBZ1818);成
都医学院教育教学改革研究项目(JG201944)
△通信作者:陈卫中,E-mail  : wejone@ 126. com
成都医学院公共卫生学院(610500)毛昂曾子倩魏敏陈晓芳陈卫中△
【提 要】目的 比较Bootstrap 法和Hodges-Lehmann 法(H-L 法)在中位数差值非劣效性检验中的特点,为相关研 究中统计学方法的选择提供依据。方法以某临床试验中试验组与对照组咽痛消失时间的比较为基础,通过计算机模拟 生成单组样本量分别为20、30、50、100、200各500个两独立样本,分别服从参数为90h(试验组)、100 h(对照组)的Poisson  分布。针对每个样本采用基于正态近似和百分位数的Bootstrap 法、H-L 法求得中位数差值的置信区间,并通过置信区间 下限与非劣性界值进行比较,得岀三种方法的检验效能。结果 三种方法均随着样本量增加,检验效能增加。在样本量为
20时,H-L 法与正态近似法检验效能相当(25% vs. 24% ),且都高于百分位数法(19% )。在样本量为30,50,1
00时,H-L 法检 验效能高于正态近似法与百分位数法,且正态近似法高于百分位数法。在样本量为200时,三种方法的检验效能相当,均在 95%以上。结论 整体来看,H-L 法获得的区间最窄且最稳定,检验效能最高,尤其在样本量不大时建议选择H-L 法。
【关键词】非参数检验非劣效性试验中位数差值的置信区间检验Bootstrap  Hodges-Lehmann 【中图分类号】R195.1 【文献标识码】A  DOI  10. 3969/j.issn. 1002 -3674. 2020.06.012
非劣效性试验(non-inferiority  trials )被广泛应用 于药物临床试验研究。有关非劣效性检验的方法主要 有假设检验法和区间检验法两种[1]。目前针对定量
资料均数非劣效性检验的方法较为成熟,如t 检验法、 均数差的置信区间法,以及基于模型边缘均数置信区 间法等[5]。但越来越多的临床试验中以某一临床事
件发生或达到预先规定标准的时间分布情况作为药物 的疗效指标[2],其观察结果多呈偏态分布,且存在不确 切值为开口资料,采用中位时间作为疗效描述和比较指
标更为恰当[3-4]。针对中位数的非劣效性区间检验的
主要有 H-L  法和 Bootstrap  法两种, 关于两种方法在非 劣效试验中的检验效能比较报道较少。因此,本文以评
价某医药公司生产的七味清咽气雾剂咽痛缓解时间为
例,比较上述两种区间检验方法在不同样本量下的检验 效能,为相关研究中统计学方法的选择提供依据。
对象与方法
1.对象
为评价某公司生产的七味清咽气雾剂的有效性,
以标准药物作为对照,共纳入280名受试对象,随机等 分为试验组和对照组。以疼痛消失时间为有效性评价
指标,在6天的临床用药观察中,对于咽痛未消失患者
的疼痛消失时间记为“ > 144h ”,为典型的开口资料。 试验结果显示对照组的咽痛消失时间的中位数为
90h,试验药物组疼痛消失时间中位数为100 h ,非劣效
性临界值A 设定为15h,即中位数差值> -15可做出试 验药物非劣于标准药物的结论。
2.方法
(1) 数据分布及参数的选择
本研究中,假定数据服从Poisson 分布,即试验组
和对照组的结局变量兀分别服从参数为和心的 Poisson 分布,结合试验结果记为P  (90), X 2 ~ P(100)o
(2) 样本量的确定
根据经验,结合临床实际,模拟研究中单组样本量
分别设定为20、30、50、100和200,以考察不同样本量 下检验方法的表现与检验效能。
(3) Hodges-Lehmann  法
Hodges  -Lehmann  ( HL  )法最早由 Hodges  和
Lehmann 提出,其原理是基于Wilcoxon 秩和检验方
法[6-7],首先计算两组个体值所有可能的n 1 X  n 2种组
合差值的中位数A ,称为位置偏移(location  shift )。即:
A  = median  ((X “ - X 2j ) where  i  = 1,2, —, n  1
;j  = 1,
2,…,n 2
) (1)
根据Hollander 和Wolfe 的研究[8],位置偏移△
的渐近置信下限A l 和置信上限A u  :
(U ( C a ) U [(n 1X  n 2) +1_ C a ] )
(2)
其中C …是一个小于等于置信区间下限的最大整
数, 表达为:
C a  = n 1
n 2/2 -5 n 1 n 2(n 1 + n 2
+ 1)/12
(3)
(4) Bootstrap  可信区间法
Bootstrap 方法最早由美国斯坦福大学统计学教
授Efron ⑼在1979年提出的。本研究中,在每种样本
含量下通过数学模拟产生 500 个 Poisson  分布样本, 并 对每个样本进行有放回、且样本量不变的重复抽样,获
得500个Bootstrap 样本,计算得到其中位数差值的置 信区间。 其具体步骤为:
① 计算Poisson 分布样本数据的中位数M 1
、陆及 M 1 - M 2;
② 对两样本分别进行有放回样本例数固定的 Bootstrap 抽样,获得用于计算标准差的Bootstrap 样本;
③ 利用得到的Bootstrap 样本,计算Bootstrap 样 本中位数之差M * - M ;;
④ 重复②-③步骤500次,获得500个Bootstrap 样 本及500个中位数之差;
⑤ 置信区间计算方法:
a. Bootstrap 正态近似法:计算500个M *
- M ;的
标准差,作为M 1
- M 2的标准误SE (
m
「m
2「,用原始两
样本数据的M 1
- M 2
和Bootstrap 得到的标准误
SE (mw /计算M 1 -M 2的(1 - a)置信区间(一般来讲
用于计算置信区间的Bootstrap 样本应不低于500)获
得其置信区间下限为:
L («! - M 2)
= ( M 1 - M 2)-
Z SE  (M \_m 2) (4)
b. Bootstrap 百分位数法:用500个Bootstrap 样本
获得的500个中位数之差,并将中位数之差P 2 5作为中位数之差的置信区间下限
表1 H-L 法、正态近似法和百分位数法中位数差值95%置信下限的比较
(5) 检验结论及检验效能估计
每个样本量下模拟500个Poisson 样本,对每个
Poisson 样本分别采用H-L 法‘Bootstrap 正态近似法和
Bootstrap 百分位数法获得中位数差值的置信区间下限
L ( M2)
,检验效能估计为
Power
="
(«”「”2)> -15)/
5
00。
(6) 软件实现过程
通过SAS  9.4进行数据模拟,并完成两种中位数
差值的置信区间检验方法在非劣效性试验中的比较。
非劣效性检验中检验水准a 设定为0. 025。
结 果
1. H-L 法、正态近似法和百分位数法95%置信区 间的比较
H-L 法的95%置信区间明显比正态近似法波动范
围小,置信区间的宽度也要小于正态近似法,且每种方 法的置信区间都包含中位数真实差异10h o 同时,各组
样本量上 H-L  法置信下限的标准差均小于 Bootstrap  正 态近似法和百分位数法。具体见表1和图1。
n H-L  法
正态近似法
百分位数法
中位数均值标准差中位数均值标准差中位数均值标准差
20-16. 00-16. 45  2.73-17. 34-17.53  3.41
-17.50
-17.57  3. 1630-15. 00-15. 18  2.32
-16. 07-16. 28  2. 92-16. 00-16. 28  2. 6550-14. 00-13. 99  1.91
-15. 00-14. 96  2. 45-15. 00-14. 88
2. 14100-1
3. 00-12. 83
1.43-13.47-13. 54  1. 89
-
13.50
-13.46  1.67200
-12. 00
-11.99
1.05
-12.51
-12. 57
1.35-1
2. 50
-12. 55
1.25
掰e
w %s 6M
-
-
_L O
5050505050
11 - 112 2 350 100150200250300350400450 500
扭e
鋼说6M H 50 100150200250300350400450 500
0 5
0 5 0112 2 3
-----模拟次数 单组样本量”=20赳糊期匿衩塀期瀏竦
50 100150200250300350400450 500
模拟次数单组样本量“=500
模拟次数 单组样本量“30
卵e
w
窖 S
6W
50 100150200250300350400450 500
模拟次数单组样本量«=100>妙鋼%
』6«
—20 —1——I ——I ——I ———0 50 100150200250300350400450500
H -储下限H -備上限
正态近似法下限—
—正态近似法上限—正态近似法上限均值 —
—正态近似法下限均值 一一中位数真实差异-—HL 下限均值-----HL_k 限均值“非劣效性临界值
模拟次数
单组样本量“200
O
图1正态近似法和H-L 法95%
置信区间比较
2.三种方法的检验效能比较
三种方法的检验效能都随着样本增加而增加。在n=20时正态近似法和H-L法相当,但随着样本量的增大,H-L法均好于正态近似法和百分位数法。且在n N 100时,H-L法明显好于正态近似法和百分位数法,而正态近似法和百分位数法相差不大。具体见表2和图2o 表2三种方法检验效能的比较[n(%)]
n H-L法正态近似法百分位数法
20121(24.00)125(25.00)97(19.40)
30195(39.00)168(33.60)141(28.20)
50299(59.80)257(51.40)235(47.00)
100444(88.80)381(76.20)375(75.00)
200499(99.80)483(96.60)478(95.60)
图2三种方法检验效能比较
3.两组受试者咽痛消失时间的比较
两组受试者咽痛消失时间的比较中,三种检验方法的置信下限均大于非劣效性界值,均得出试验药非劣于对照药的结论。但H-L法的置信区间最窄。具体见表3。
表3两组受试者咽痛消失时间差值及其95%可信区间(h)
组别非劣效H-L法正态近似法百分位数法性界值下限上限下限上限下限上限
试验组VS
对照组
-15.00-7.750.00-6.117.24-3.549.50
讨论
本研究探讨了两种中位数差值的区间检验方法在非劣效试验中的模拟比较研究。在样本量为20时,正态近似法的检验效能和H-L法的检验效能相差不大。但随着样本量的增大H-L法的检验效能先是明显高于正态近似法,在样本量到200时,两种方法的检验效能趋于一致。不论样本量是多少,正态近似法的置信区间波动范围都大于H-L法,且不如H-L法稳定,其原因可能和两种方法利用样本信息程度有关。H-L法充分利用每一个样本信息,每一个观测都要与另一组的每个观测进行相减,且在后续计算中所占权重相等,并对极端值有较为稳健的处理[l0]o而正态近似法则较多的考虑了原始样本中位数的差异,其次,Bootstrap 法还与原始样本量有关,本研究中在单组样本量为200时,正态近似法得到的置信区间波动范围较样本量为100时有了明显改善,应注意的是在应用Bootstrap法估计中位数置信区间时是基于样本很好地代表总体的假设[11]。
正态近似法和百分位数法的检验效能在样本量大的时候趋于一致,但在小样本时正态近似法明显优于百
分位数法。由于百分位数法单纯的利用了Bootstrap样本的P2i和P97,信息,其计算置信区间原理属于一种非参数的方法,而正态近似法既利用了原始抽样样本中位数差值的真实差异又利用了Bootstrap样本的信息,根据中心极限定理计算其置信区间属于一种参数方法,故正态近似法的检验效能要优于百分位数法。临床判断非劣效性的一个重要问题是非劣效性界值A标准的选择[12]。本研究中,当把非劣效性临界值A设置为13、14时,三种方法的检验效能同时降低,但仍然是H-L法优于正态近似法和百分位数法。但由于H-L法的区间宽度最小且稳定,改变非劣效性临界值对其影响较小。
本研究主要针对以时间作为效应指标,且可能存在不确切值的右截尾数据,并以中位数作为比较的指标进行非劣效性检验。除本研究介绍的两类置信区间法外,也可以考虑选择生存分析的方法。但理论上针对右截尾的数据中位生存时间和时间的中位数是相等的,而且如果仍采用Bootstrap法估计中位数差的置信区间结果与本研究中使用的方法也应该是一致。Jinheum指出也可以利用分层Cox比例风险模型计算中位生存时间差的置信区间[13],但其标准误计算较为复杂。因此,针对右截尾时间数据计算中位数差值的置信区间,应首先考虑基于中位数差的Bootstrap法或H-L法。但如果数据中存在其他类型的删失数据,如研究对象中途退出等,此时中位数比较法已不再适用,应考虑利用分层Cox比例风险模型得到中位数差的置信区间。
从本次研究的结果来看,在药物的非劣效试验中,三种中位数差值的区间检验方法所获得的区间都包含了总体中位数的真实差异。整体来看,H-L法获得的区间最窄且最稳定,检验效能最高,且对极端值有较
为稳健的处理,尤其在样本量不大时建议选择H-L法。其在实际应用中H-L法的操作复杂程度也要低于Bootstrap法。
参考文献
[1]CCTS工作小组,夏结来.非劣效临床试验的统计学考虑.中国卫生统计,2012,29(2):270-274.
[2]刘炳林.药物临床试验中疗效评价指标及常见评价方法.中国新药杂志,2016,25(18):2074-2077.
[3]周贤忠,刘仁沛.临床试验的设计与分析.北京:北京大学医学出版社,2010:326-354.
(下转第854页
)
讨论
众多研究表明ARIMA模型具有不受数据类型限制和较强适应性的优点,在短期预测中具有较好的表现能力[1_13]。ARIMA乘积季节模型可以提取出数据中蕴含的季节信息,当时间序列同时有短期相关性和季节趋势时,需要拟合ARIMA季节乘积模型以分析数据中的短期相关性、季节效应与随机误差的复杂关系。ARIMA模型作为一种较为经典的方法在传染病的预测上早已得到广泛的应用,并且表现出短期预测精度较高的优点。
人工神经网络能够逼近任意的非线性关系,具有良好的泛化能力,此外,人工神经网络没有任何对变量的假设要求,许多国内学者已将该模型应用在对疾病的发病率研究当中。GRNN模型其局部逼近能力强,且学习速度较快,既解决了局部最优问题,又同时提高了训练速度,且能保证预测的效果。
本研究结果显示,两种模型的预测结果与实际情况基本符合,均能较好地对全国猩红热发病率进行拟合。通过比较ARIMA乘积季节模型和GRNN模型的R2和预测结果的平均相对误差,GRNN模型均优于ARIMA乘积季节模型,由于猩红热受到气象因素、环境及个人防护等因素的影响,收集的资料数据是非线性的,而GRNN模型不对数据的分布做要求,故GRNN 模型的预测能力更强,可以为今后研究猩红热等传染性疾病的流行趋势及提出防控措施提供科学依据。
本研究尚存在不足之处,GRNN训练样本的选取为猩红热的月发病率,神经网络的学习程度和预测能力可能会受到一定影响,且猩红热与气象因素密切相关,本研究未考虑气象因素也可能影响预测精度,且传染病流行规律复杂多变,在今后的研究中应及时更新数据对模型进行多次拟合,以提高预测水平。
参考文献
[1]谭小华,刘美真,杨宇威,等.2005-2017年广东省猩红热流行特征分析.疾病监测,2019,34(5):411-416.
[2]赵梦娇,于秋燕,赵小冬,等.ARIMA季节乘积模型预测济南市猩红热发病趋势.疾病监测,2016,31(5):411-415.
[3]陈远方,张熳,王小莉,等.ARIMA模型和BP神经网络模型在我国乙型肝炎发病预测中的应用.江苏预防医学,2015,26(3):23-26.[4]孙娜,许小珊,冯佳宁,等.ARIMA与GM(1,1)模型对我国年发病人数预测情况的比较.中国卫生统计,2019,36(1):71-74.[5]杨德志.广义回归神经网络在乙肝发病数时间序列预测中的应用.计算机应用与软件,2013,30(4):217-219.
[6]杨召,叶中辉,赵磊,等.ARIMA-BPNN组合预测模型在流感发病率预测中的应用.中国卫生统计,2014,31(1):16-18.
[7]马洁,田野,黄璐,等.ARIMA乘积季节模型与广义回归神经网络模型在布鲁菌病发病预测的比较.山东大学学报(医学版),2018, 56(6):76-82.
[8]马洁,田野,刘晓迪,等.ARIMA乘积季节模型在全国布鲁菌病发病预测中的应用.职业与健康,2018,34(19):2665-2668.
[9]秘玉清,张继萍,殷延玲,等.基于ARIMA模型的山东省发病趋势预测.中国卫生统计,2018,35(6):879-881.
[10]王永斌,李向文,柴峰,等.采用灰-广义回归神经网络组合模型预测我国尘肺病发病人数的方法探讨.环境与职业医学,2016,33
(10):984-987+999.
[11]黄璐,孙娜,许小珊,等.广义回归神经网络在布鲁氏菌病预测中的应用.郑州大学学报(医学版),2018,53(6):751-754.
[12]宋媛媛,王雷,熊甜,等.ARIMA模型与GM(1,1)模型在痢疾发病数预测中的比较研究.实用预防医学,2019,26(7):888-892.[13]张芳芳,廖瑞斌,宫晓,等.基于ARIMA模型的广东省卫生总费用趋势预测及构成分析.现代预防医学,2019,46(2):289-293.
(责任编辑:张悦)
(上接第850页)
[4]王学生,王革.中位数检验法在偏态分布资料中应用.中国公共卫
生,2001,17(5):81-82.
[5]陈卫,徐利娜,迭敏,等•线性回归模型在盐酸二甲双弧缓释片降bootstrap 软件
糖效能非劣效性检验中的应用•现代预防医学,2010,37(3):407-409.
[6]Hodges JL,Lehmann EL.Estimates of location based on rank tests.
Ann Stat.1963,34(2):598-611.
[7]Lehmann EL.Nonparametric confidence intervals for a shift
parameter.Ann Math Stat,1963,34(4):1507-1512.
[8]Hollander M,Wolfe DA.Nonparametric Statistical Methods.1973,
New York:John Wiley&Sons.75-82.
[9]Efron    B.Bootstrap Methods:Another look at the Jackknife.Ann
Statist.1979,7(1):1-26.
[10]Alloway JA;Raghavachari M.Control Chart Based on the Hodges-
Lehmann Estimator.Journal of Quality Technology,1991,23(4):336-347.
[11]Bland JM,Altman DG.Statistics Notes:Bootstrap resampling
methods.BMJ.2015,350:h2622.
[12]侯艳,武振宇,李康•临床新药试验中非劣效性检验界值的确定方
法.中国卫生统计,2008,25(6):648-651.
[13]Jinheum Kim.Confidence Intervals for the Difference of Median
Survival Times Using the Stratified Cox Proportional Hazards Model.
Biometrical Journal,2001,43(6):781-790.
(责任编辑:郭海强)