生物多样性  2016, 24 (10): 1189–1196                                                        doi: 10.17520/biods.2016265 Biodiversity Science  http: //www.biodiversity-science
·方法·
Maxent模型复杂度对物种潜在分布区预测的影响
朱耿平1*乔慧捷2
1 (天津市动植物抗性重点实验室, 天津师范大学生命科学学院, 天津 300387)
2 (中国科学院动物研究所, 北京 100101)
摘要: 生态位模型在入侵生物学和保护生物学中具有广泛的应用, 其中Maxent模型最为流行, 被越来越多地应用在预测物种的现实分布和潜在分布的研究中。在Maxent模型中, 多数研究者采用默认参数来构建模型, 这些默认参数源自早期对266个物种的测试, 以预测物种的现实分布为目的。近期研究发现, Maxent模型采用复杂机械学习算法, 对采样偏差敏感, 易产生过度拟合, 模型转移能力仅在低阈值情况下较好。基于默认参数的Maxent模型不仅预测结果不可靠, 而且有时很难解释。在本研究中, 作者以入侵害虫茶翅蝽(Halyomorpha halys)为例, 采用经典模型构建方案(即构建本土模型然后将其转移至入侵地来评估), 利用ENMeval数据包来调整本土Maxent模型调控倍频和特征组合参数, 分析各种参数条件下模型的
复杂度, 然后选取最低复杂度的模型参数(即为最优模型), 综合比较默认参数和调整参数后Maxent模型的响应曲线和预测结果, 探讨Maxent模型复杂度对预测结果的影响及Maxent模型构建时所需注意事项, 以期对物种潜在分布进行合理的预测, 促进Maxent模型在我国的合理运用和发展。作者认为, 环境变量的选择至关重要, 需要综合分析其对所模拟物种分布的限制作用和环境变量之间的空间相关性。构建Maxent模型前需对物种分布采样偏差及模型的构建区域进行合理地判断, 模型构建时需要比较不同参数下模型的预测结果和响应曲线, 选取复杂度较低的模型参数来最终建模。在茶翅蝽的分析中, Maxent模型的默认参数和最优模型参数不同, 与Maxent模型默认参数相比, 采用调整参数后所构建的模型预测效果较好, 响应曲线较为平滑, 模型转移能力较高, 能够较为合理反映物种对环境因子的响应和准确地模拟该物种的潜在分布。
关键词: 生态位模型; Maxent模型; 模型复杂度; 转移能力; 现实分布; 潜在分布
Effect of the Maxent model’s complexity on the prediction of species po-tential distributions
Gengping Zhu1*, Huijie Qiao2
1 Tianjin Key Laboratory of Animal and Plant Resistance, College of Life Sciences, Tianjin Normal University, Tianjin
300387
2 Institute of Zoology, Chinese Academy of Sciences, Beijing 100101
Abstract: Ecological niche modeling (ENM) is widely used in the study of biological invasions and conser-vation biology. Maxent is the most popular algorithm and is being increasingly used to estimate species’ re-alized and potential distributions. Most modelers use the default Maxent setting to fit niche models, which originated from an earlier study containing 266 species, with the purpose of seeking their realized distribu-tions. However, recent studies have shown that Maxent uses a complex machine learning method. It is sensi-tive to sampling bias and tends to overfit training data, and is only transferrable at low thresholds. Default settings based on Maxent outputs are sometimes not reliable, making it difficult to interpret. Using Halyo-morpha halys and classical modeling approaches (i.e., niche models that were calibrated in native East Asia and transferred to North America), we tested the complexity and performance of the Maxent model under different settings of regulation multipliers and feature combinations, and chose a fine-tuned setting with the lowest complexity. We then compared the response curves and model interpolative and extrapolative valida-——————————————————
收稿日期: 2016-09-20; 接受日期: 2016-10-28
基金项目: 国家自然科学基金(31401962)、天津师范大学人才引进基金项目(5RL127)、天津市131创新人才培养工程项目(ZX110204)和天津市用三年时间引进千名以上高层次人才项目(5KQM110030)
* 通讯作者Author for correspondence. E-mail: gengpingzhu@hotmail
1190 生物多样性 Biodiversity Science第24卷tions between models calibrated using default and fine-tuned settings. Our purpose was to explore the effects of the model’s complexity on niche model performance in order to improve the development and application of Maxent in China. We argue that selection of environmental variables is crucial for model calibration, which should include ecological relevance and spatial correlation. Reducing sampling bias and delimitating a proper geographic background, together with the comparison of response curves and complexity of Maxent models built under different settings, is very important for fitting a good niche model. In the case of H. halys, the default and fine-tuned settings are different, however the response curve is much smoother in the fi-ne-tuned model, and the omission error is lower in introduced areas when compared to default model, sug-gesting that the fine-tuned model reflects the response of H. halys to environmental factors more reasonably and precisely predicts the potential distribution.
Key words: ecological niche model; Maxent; model complexity; transferability; realized distribution; poten-tial distribution
近年来, 生态位模型在生物多样性保护的多个领域得到应用, 如入侵生物学、保护生物学、全球气候变化对物种分布的影响、谱系生物地理学及传染病空间传播研究(Peterson et al, 2011; 朱耿平等, 2013)。一般来说, 生态位模型可分为实验机理性方案(mechanistic approach)模型和相关性方案(correlative approach)模型两种(Soberón & Peterson, 2005; Kearney et al, 2010)。实验机理性方案指的是通过实验测试物种的生理耐受性来推断物种在地理空间中的分布; 相关性方案生态位模型将地理空间和生态空间联系起来, 利用物种已知的分布数据和相关环境变量, 根据一定的算法来构建模型, 判断物种的生态需求, 并将运算结果投射到不同的时间或地理空间中来预测物种的现实分布(realized distribution)和潜在分布(potential distribution)。与实验机理性方案生态位模型相比, 相关性方案的生态位模型具有开放性、构建相对简单、所需参数较少等特点, 从而被越来越多的学者所采用。与分子系统学的发展历程不同, 生态位模型的广泛应用推动着其理论基础不断向前发展, 其中生态位概念、生态位与物种分布的关系、生态位模型与生态位的关系等理论的丰富和发展是构建合理模型的重要基础(Peterson & Soberón, 2012; 乔慧捷等, 2013; 朱耿平等, 2013)。
生态位模型所模拟的物种分布朝着两个方向, 即现实分布和潜在分布, 它们在不同领域分别有着广泛的应用。前者以模拟物种现实分布为目的, 模型构建后不需要转移, 主要应用于保护区的界定和濒危物种迁地保护研究中; 后者以模拟物种的潜在分布为目的, 模型构建后需要转移, 这种转移以生态位的保守性为基础, 主要应用于入侵生物学、全球变化对物种分布的影响、以及谱系生物地理学中(Jiménez-Valve
rde et al, 2011)。在以现实分布为目的时, 生态位模型有时也被称为物种分布模型。目前常用的生态位模型有约20种, 各自有不同的理论基础、分析方式和数据需求, 这些模型所模拟的物种分布分别处于现实分布和潜在分布之间。一般认为同时采用物种存在和不存在分布数据的模型所模拟的物种分布倾向于反映物种的现实分布, 仅采用物种存在分布点的模型所模拟的物种分布倾向于反映物种的潜在分布(Jiménez-Valverde et al, 2011)。Maxent模型是目前使用最为广泛的生态位模型(Ahmed et al, 2015; Barbosa & Schneck, 2015; Vaz et al, 2015), 它以概率论和机器学习理论为基础(Phillips et al, 2006), 采用物种存在分布点和背景环境变量来构建模型, 所模拟的物种分布介于潜在分布和现实分布之间(Jiménez-Valverde et al, 2011)。
在生态位模型中, 简单模型准确率常较低、可转移性高; 而复杂模型恰好相反, 准确率高、可转移性差(Qiao et al, 2015)。如何在模型的可转移性和准确率之间到平衡点, 是生态位模型的一个重要研究方向(乔慧捷等, 2013)。Maxent模型属于机械学习式的复杂模型, 多数研究者采用Maxent默认参数来构建模型, 这些默认参数的设置源自早期Maxent 模型开发者对不同地理区域的266个物种数据的测试(主要是鸟类、哺乳类、爬行类以及植物), 所测试物种以模拟其现实分布为目的(Phillips & Dudík, 2008)。随后的研究发现, 在以模拟物种潜在分布为目的时, Maxent模型对采样偏差敏感, 容易产生过度拟合(overfitting)的问题, 从而影响模型的转移能
第10期朱耿平和乔慧捷: Maxent模型复杂度对物种潜在分布区预测的影响 1191
力, 模型转移能力仅在低阈值情况下较好(Peterson et al, 2008; Warren & Seifert, 2011; Warren et al, 2014)。当以模拟现实分布为目的时, Maxent模型的这种特性对预测结果影响不明显; 但当以模拟物种潜在分布为目的时, 由于Maxent模型容易过度拟合导致模型转移能力较低, 严重影响了其在入侵生物学和全球变化生物学等研究中的应用, 这种模拟不仅预测结果不可靠, 而且预测结果很难解释。
在本研究中, 以入侵害虫茶翅蝽(Halyomorpha halys)为例, 以预测入侵物种的潜在分布为目的, 探讨Maxent模型的复杂度对模型转移能力的影响。本研究采用经典生态模型方案, 通过构建本土模型, 然后将其转移至入侵地来模拟茶翅蝽的潜在分布, 同时采用地理空间分层的方法测试Maxent模型对本土分布数据是否过度拟合。通过调用ENMeval 数据包(Muscarella et al, 2014)来调整Maxent模型参数和分析各种参数条件下的模型复杂度, 并选取最低复杂度的模型参数, 综合比较Maxent模型默认参数和调整参数后的响应曲线和预测结果, 探讨Maxent模型复杂度对预测结果的影响以及Maxent 模型构建时的注意事项。本文结合模型的构建材料及模型的构建区域全面阐述提高模型转移能力的策略, 以期对物种潜在分布进行合理的预测, 促进Maxent模型在我国的合理运用和发展。
1材料与方法
1.1数据来源及处理
茶翅蝽原产于亚洲东部(中国、日本、韩国和朝鲜), 现已在北美洲和欧洲建立种, 危害比较严重。物
种分布点数据和环境变量源自Zhu等(2012, 2016)中, 已去除采样偏差对模型的影响。环境变量的选取主要考虑其对物种分布的限制作用和变量间的空间相关性(Peterson et al, 2011), 选取了年平均气温(bio1)、最热月份最高气温(bio5)、最冷月份最低气温(bio6)、年降雨量(bio12)和年平均辐射量(bio20)等5个环境变量(Hijmans et al, 2005; Kriticos et al, 2011)。研究区域分为茶翅蝽的本土种生存地区以及入侵地, 其中本土地区包括中国、朝鲜、韩国和日本, 入侵地以北美洲为例(Zhu et al, 2016)。
1.2模型构建及评价
首先采用Maxent默认参数在茶翅蝽本土地区构建模型, 然后将其转移至入侵地来检验和评价模型; 随后通过调用ENMeval数据包来调整Maxent模型调控倍频(regularization multiplier, RM)和特征组合(feature combination, FC)参数, 分析各种参数条件下模型的复杂度, 选取最低复杂度的模型参数; 最后综合比较分析Maxent模型默认参数和调整参数后的响应曲线和预测结果, 探讨Maxent模型复杂度对预测结果的影响。Maxent模型的复杂度与其RM和FC参数密切相关。目前Maxent中有5种特征, 即: 线性(linear – L), 二次型(quadratic – Q), 片段化(hinge – H), 乘积型(product – P)和阈值性(threshold – T)。在其默认设置中, RM的值为1, 具体特征组合的选择和使用与物种分布点数量有关, 通常情况下linear feature一直在运行, quadratic feature 在物种分布点>10时使用, hinge feature在分布点>15时使用, threshold和product feature在分布点>80时使用(Elith et al, 2010)。ENMeval数据包通过测试不同参数条件下Maxent模型修正的AIC值(即AICc)来评价模型的复杂度。AIC信息量准则(Akaike informa-tion cri
terion correction, AIC)是衡量统计模型拟合优良性的一种标准, 可以权衡所估计模型的复杂度和此模型拟合数据的优良性, AIC信息量准则优先考虑AIC值最小的模型(Akaike, 1973)。AIC值可通过Maxent模型运行后产生的lambdas文件计算获得(Warren & Seifert, 2011)。在本研究中, 我们将RM设置为0.5–4, 每次增加0.5, 采用6个特征组合(FC), 即: L, LQ, H, LQH, LQHP和LQHPT。为测试Maxent 模型对本土分布数据拟合的效果, 在本土区域将物种分布点进行空间分割成4等份, 随机采用其中的3份构建模型, 剩余的1份用于检验模型(Muscarella et al, 2014)。
在本研究中, 所有物种分布数据分成3份, 其中随机选取70%的本土物种分布点用于模型构建和优化, 剩下30%的本土物种分布点用于模型内部检验, 北美入侵地物种分布点用于检验模型转移能力。Maxent模型的对比和评价主要采用响应曲线和遗漏率曲线, 同时采用Partial ROC方案测试模型的本土预测能力和转移能力(Peterson et al, 2008)。在ENMenv数据包中, 采用AUC来测试模型在本土4份地理空间之间的相互预测的效果, AUC.diff (等于AUCtrain-AUCtest)和OR10用来测试模型对本土物种分布点的拟合程度, delta.AICc用来测试模型的复
1192 生物多样性 Biodiversity Science第24卷
杂度和拟合程度(详细参见Muscarella et al, 2014)。2结果
基于茶翅蝽的物种分布点数目(234个), Maxent 模型在默认参数设置时, 其RM = 1, 运行的Feature 有L,
Q, H, P和T。基于AIC信息准则, 在Maxent的运行参数为RM = 3和运行Feature为L, Q和H时, 其AIC值最小(图1)。在茶翅蝽本土范围内, Maxent模型进行地理空间之间相互预测时, 基于优化模型的AUC值(0.641)高于默认参数下模型的AUC值(0.628) (图1), 二者总体上都不高, 说明在东亚本土分布范围内, 茶翅蝽分布的生境异质性较大。基于优化模型的AUCdiff和OR10值明显低于默认参数下的Maxent模型(图1), 表明优化后的模型明显降低了对本土分布数据的过度拟合。在响应曲线中, 基于默认参数的Maxent模型表现出明显曲折性, 表明Maxent模型对模型构建区的物种分布数据存在过度拟合现象。相反, 当采用最优模型参数时, 响应曲线变得相对平滑(图2), 亦表明优化后的模型降低了Maxent模型对本土分布数据的过度拟合, 从而更接近茶翅蝽对环境因子的生理响应。
在本土模型构建区,基于默认参数构建的Maxent模型其AUCratio值为1.526, 基于最小AICc 值校正参数后的Maxent模型其AUCratio值为1.539。将Maxent模型转移至全球范围后, 基于默认参数和优化参数后模型的预测差别较大(图3), 特别是在南半球, 如南美洲北部和非洲的中部地区(图3)。与南半球的预测相比, 二者在北美洲和欧洲的预测效果也有一定的差别。在北美洲, 基于默认参数和优化参数后的Maxent模型其AUCratio值分别为1.430和1.452。在遗漏率曲线中, 在不同的阈值下, 基于优化参数后的Maxent模型对入侵地分布数据的遗漏
图1不同参数下的茶翅蝽本土模型表现。黑箭头表示Maxent默认参数,红边箭头表示AIC值最小优化模型参数。
Fig. 1 Performances of native niche model of Halyomorpha halys under different settings. Black arrow indicates default setting, rededge arrow indicates the AICc-chosen setting.
第10期 朱耿平和乔慧捷: Maxent 模型复杂度对物种潜在分布区预测的影响
1193
图2  基于默认参数和优化参数的本土Maxent 模型中茶翅蝽对5个气候变量的响应曲线
Fig. 2  Comparison of response curves of Halyomorpha halys  to five bioclimatic variables based on the default and fine-tuned Maxent settings
率相对较低, 表明优化后的模型转移能力较强, 在北美洲预测茶翅蝽潜在分布的效果较好(图4)。在本土和入侵地的预测中, 优化参数后的Maxent 模型均优于默认参数的模型, 对本土亚洲东部和入侵地北美洲分布的茶翅蝽种均能够有相对较好的预测。
3  讨论
seifert
生态位模型是利用物种已知分布点所关联的环境变量去推算物种的生态需求, 模拟物种的分布。在模拟入侵物种分布时, 经典生态位模型通过模型构建物种本土分布地模型, 然后将其转移并投射至另一地理区域, 来模拟入侵物种的潜在分布。然而在模型运用时, 出现了模型转移能力较低、模拟结果与物种的现实分布不相符的情况, 由此得出了生态位漂移等不恰当的结论。提高生态位模型的转移能力, 不仅可以准确地模拟物种的潜在分布, 同时对生态位保守性等理论问题具有重要的参考价值(朱耿平等, 2014)。
3.1  Maxent 模型默认参数的局限性
Maxent 默认参数的设置源自早期模型开发者对6个不同地理区域的266个物种数据的测试(Phillips & Dudík, 2008), 他们采用海量物种的分布
数据和多种实验方案, 以期得到一个最优的模型参数作为默认参数来推广和简化Maxent 模型的应用, 这些物种涵盖了鸟类、哺乳类、爬行类以及植物等类, 分布在澳洲、新西兰、欧洲和南美洲等地区。然而, 这些模型的应用均是以预测现实分布为目的, 模型构建后不需转移, 预测模型需要能够很好地辨别物种的分布与否(即区分物种的分布和不分布, Jiménez-Valverde et al, 2008; Phillips & Dudík, 2008)。在生物入侵、全球变化对物种分布影响和谱系生物地理学中, 生态位模型的应用是以模拟物种的潜在分布为目的, Maxent 模型构建以后需要转移至不同地理空间中去预测物种的潜在分布, 需要降低模型预测的
遗漏率。虽然Maxent 模型所模拟的物种分布介于潜在分布和现实分布之间(Jiménez- Valverde et al, 2011), 但从研究者目的出发有时需要调整模拟方案来实现模拟需求。在以模拟物种潜在分布为目的时, Maxent 模型默认参数可能不再适用, 如本研究中, 茶翅蝽的最优模型参数不同于默认参数(图1), 如果继续采用默认参数, Maxent 模型虽能够很好地拟合模型构建区的物种分布, 但由于过度拟合会造成模型转移能力降低(图4)。此外, Maxent 模型默认参数的测试数据中所采用的物种