专题2数字标本馆与生物多样性信息管理
中国虚拟植物标本馆标本集成检索系统设计与开发
陈建平
(西北农林科技大学生命学院植物标本馆,西安杨凌 712100)
集成检索,也称为元检索、集成检索、跨库检索、并发检索、广播检索、联邦检索等。是一种分布式异构数据库间的系统集成技术。
“中国虚拟植物标本馆集成检索系统”是由中国虚拟植物标本馆CVH支持的一个探索性项目。旨在通过统一的检索界面,同时对多个标本馆的标本数据库进行检索,并将检索结果归并,一次提交给用户,在实体资源分散的情况下实现了“虚拟的资源整合”。 由于国内各植物标本馆数据基本都交与CVH作数据集中式集成,本项目则主要致力于国外标本馆的数据集成,采用分布式的虚拟集成策略。
实现方案有两种:
1. 在线多代理方式:它向用户提供统一的检索接口,将用户的检索要求转化为不同数据源的检索表达式,并发地检索本地的和广域网上的多个分布式异构数据源,并对检索结果加以整合,在经过去重和排序等操作后,以统一的格式将结果呈现给用户。其特点是:
● 能及时反映数据源最新情况。
● 系统仅有程序,无需数据库,部署方便简单。
● 无须处理具体数据库,工作量小。
● 因为所有过程都需要在线处理,所以响应速度慢,服务器压力大。
● 检索系统受限于各个标本馆的网络服务状况,对方网络地址变更、应用系统更新、服务器关闭等等情况都会引起检索无效。
● 查询结果的集成度低。因为数据源返回的结果往往都是分成多页的,在线处理时不可能等到所有数据后再分析、综合。
2. 搜索引擎方式:先使用网络机器人(Robot,或称为网络爬虫Spider)缓冲数据源,其次对数据源进行分析,最后重建索引数据库,建立检索系统。在标本集成检索系统中,系统将按照物种词典预先检索各个数据源,将结果处理后缓冲在本地。接受用户检索请求后直接在本地执行检索,返回数据。特点是
●响应速度快。
●查询结果的集成度高。可以按照任意的要求对数据进行整理排序。
●不受数据源的网络状况、服务器错误等意外情况干扰。
●节省带宽资源,服务性能好。
●不能反映数据源最新情况,只适用于数据变化周期较长的情况。需要定期更新缓冲。
●需要分析每个数据源,作数据抽取的工作,工作量大。
目前的系统按照第一种方案设计,即“在线多代理方式”,已经可以检索数十个数据源。也实现了.NET平台下的网站自动登陆模块,代理访问模块。同时我们也对第二种方案(即搜索引擎方式)进行了研究,开发出了Spider、网页数据分析提取工具等核心工具。
一个生物标本地理信息系统的设计和实现
Design and Implement of a Specimen-Geographical Information System
张尚武
(中国科学院动物研究所,北京 100080)
作者在调查GIS技术在生物多样性研究领域的应用时发现,现有的GIS软件功能复杂,价格昂贵,仅适合
既具备一定GIS专业知识又具有计算机技术相关知识的研究人员使用。这使得生物多样性研究的人力和物力成本大幅增加。而作为发展中国家的中国在生物多样性研究领域的投入有限,使得GIS技术在我国生物多样性研究领域上的应用滞后于国际同行。另一方面,随着“数字标本馆”等项目的开展,许多物种和标本的基础数据库将提供空前庞大的物种分布信息,需要生物多样性研究人员利用GIS技术去挖掘更深层次的知识。
针对这一供需矛盾,作者决定设计开发一个针对生物多样性研究领域的GIS功能信息平台,与现有的基础数据库建立紧密的连接,同时使得相关的数据对用户透明,不仅节省相关研究的成本,还可大大提高研究效率。
通过需求分析和可行性研究,作者把整个软件系统分为包括具有WebGIS功能的SpecimenWebMap和具有地理分析功能的桌面版SpecimenMapping两个相对独立的分系统,而二者采用相同的底层数据结构,降低开发成本和实现数据的共享。
目前,作者采用XML、GML和SVG等技术手段,设计实现了上述软件系统的初级版本。其中,SpecimenWebMap作为动物标本信息系统的一个组成部分已经投入使用。SpecimenMapping也推出了试用版本,它除了具有SpecimenWebMap浏览数据的功能,还具有生境分析等进一步扩展的功能。
用于生物多样性,生物地理学和生态学的物种分布作图分析软件 BioGeo-a simple WINDOWS program
for biodiversity, biogeography and
ecological mapping
陈有华
(武汉大学生命科学学院,武汉 430072)
为了能描述物种的分布并进行多样性作图, 实现生物多样性和保护生物学中的常用统计分析功能,作者本人开发了一款物种分布作图分析软件BioGeo,该软件是为生物多样性,生物地理学和生态学分析而专门设计的。BioGeo还适合于其他许多领域,如流行病分布,有害和入侵生物物种研究,实验样方采集地描述等。
BioGeo v0.1是一个测试版,也是第一个版本,很多功能还没有能提供和尚待完善,操作界面也需美化。BioGeo拥有许多同国外相关软件相类似的功能,如Worldmap,DIVA-GIS,DMAP等。BioGeo是目前国内唯一完全自主开发的物种分布作图分析软件,并没有利用到国外国内商业的地理信息系统组件
“国家重点保护野生植物名录”数据库简介
武建勇1,2  覃海宁1
(1.中国科学院植物研究所系统与进化国家重点实验室,北京 100093;
2.中国科学院研究生院,北京 100039)
该数据库将“名录”中的“类”都细化到种(包括变种),共包括了1900种,涉及到109个科、498个属。同时,我们又以种为单位在数据库中拟补充并丰富了濒危等级、分布、是否为中国特有、习性、生境类型、海拔、濒危原因、保护行动、用途等信息。本文对数据库中的每个物种的习性、分布、中国特有性等进行了分析统计并作了图示。分析结果表明:
①草本占总数79.0%,中国特有45.7%、木本占总数17.6%,中国特有71.6%、藤本占总数
4.0%,中国特有82.6%;②只在一个县分布的最多,占23.9%,中国特有6
5.2%、两县分布的占9.8%,中国特有38.9%、一省和两省三县分布的占5.9%,中国特有41.6%、一省和两省无具体县级分布的占7.8%,中国特有51.3%;③蕨类植物占总数的1.4%,中国特有23.0%、裸子植物占总数的3.9%,中国特有68.0%、被子植物占总数的94.7%;中国特有51.0%。同时,本文也指出该数据库一些物种的信息和“名录”中物种的遴选标准存在问题及进一步完善数据库的构想。
标本原始数据的重要性及其标准化
Vital original specimen data and their standardization
李鸣光  余萍
spider软件
(中山大学生物博物馆 广州 510275)
根据标本所承载的信息,可将其分为采集信息、管理信息、鉴定信息三个部分。其中,采集信息包括采集地、采集人、采集时间、所采标本形态和生境描述等;鉴定信息包括采集人和其后的研究人员对标本的鉴定名及与其相关的内容;管理信息包括流水号、条形码、借入借出、存放柜等。
原始数据指现有标本采集、鉴定、管理的未经任何修改的数据,这些数据是在历史过程中形成和积累的,它们包含了极其宝贵的科学内涵。
建立数据库的最主要目的是为科学研究服务,因此数据库应能忠实地记录保存原始数据。许多已建立的标本数据库常未将它们作为必须保存的数据来处理,势将限制数标本数据库为科学研究服务的能力。
数据库的服务功能体现在对用户的查询作出有价值的响应。因此,供查询的数据库必须是标准化的。标准化数据利于馆内的标本馆藏信息的管理,尤其是实现整合更大范围的标本信息资源共享的网络平台所需。但各时期和各地的植物学工作者常使用不同的采集记录格式和表述习惯;采集地名(大量行政单位和自然村名、小地名)又不断随历史而变化;标本鉴定因误定、因不同观点而定为不同的分类名等。因此原始数据规范性不良,与标准化数据的需求相距甚远。
因此数据库必须兼容原始数据和标准化数据,首次录入形成数据库中的原始数据,经审
定后的数据产生标准化数据,二者缺一不可。原始数据库完全忠实于原文,不对原始数据做任何改动,标准化数据库则是对原始数据进行标准化之后的数据库。原始数据的标准化包括地名的标准化、形态描述的标准化、人名的标准化、鉴定时间的标准化、物种鉴定的标准化等。
标准化数据有其自身的历史,同样必须保存。标准化数据是可变的。标准化数据在标准化时认定的标准,其本身也必将在研究过程中继续行修正、补充和完善。
一种基于计算机的植物鉴定工具
— ActKey交互式检索表(Interactive key) 简介
A Brief Introduction to the Web-based Plant Identification Tool
— ActKey Interactive Key
文 香 英
(中国科学院华南植物园,广州,510650)
检索表(指传统的检索表dichotomous keys)是一种人为设计的用来鉴定未知生物的工具,在一检索表里,对每个性状列出两个相对的陈述,需要去选择其中一个而舍弃另外一个(Lawrence, 1951)。而交互式检索表是一种互动的计算机程序,使用者不断地向这个程序里输入标本或活植物的性状,那些不具有这些性状的分类将被排除掉,直到只剩下一个分类单元。基于计算机的交互式检索表是一种新的、功能非常强大的生物鉴定工具。
1. 创建交互式检索表的常见软件
早期的创建计算机交互式检索表的软件包括:Navikey, Meka, PollyClave和XID; DELTA-format IntKey, Lucid(对于每个性状,它的性状状态数不能超过15个)和 ActKey 交互式检索表是比较广泛应用的生物鉴定工具。但是,除了ActKey(只要能上网的地方就可以使用),其它交互式检索表的应用必须要在电脑上安装相应的软件,而且,有些软件的下载和安装需要花很长时间。
2.ActKey交互式检索表与传统的二歧式检索表相比较如下表
二歧式检索表 交互式检索表
1 具有2个分支,每个分支必须包含相对立的性状状态每个性状可以具有2个或以上
性状状态,而且这些性状状态
不一定是相对的
2 在鉴定过程中,必须从第一个性状开始,沿着预设途
径进行 在鉴定过程中不需要从检索表的第一个性状开始,也不需要按照预设途径进行
3 如果在检索表中使用了缺省性状或模糊性状,如:花
瓣的数目,但待鉴定的植物或标本恰好不在花期,这时,鉴定工作便难以进行下去; 如果检索表中不具有待鉴定标本上的某个性状,可以忽略它,另选其它性状而不会影响鉴定过程