面向GIS应用的数据挖掘技术研究
作者:王静
来源:《科技资讯》 2013年第9期
    王静
    (天津市测绘院  天津  300381)
    摘 要:本文介绍了空间数据挖掘的概念,分析了基于GIS的空间数据挖掘的流程,详细介绍了空间数据挖掘在GIS中的应用和可视化方法,最后提出GIS空间数据挖掘的存在问题,阐述了技术的发展前景。
    关键词:GIS  空间数据挖掘  可视化
数据可视化的概念    中图分类号:P208            文献标识码:A            文章编号:1672-3791(2013)03(c)-0063-02
    1  空间数据挖掘的概念
    空间数据包括了空间属性数据和非空间属性数据,空间属性描述了空间拓扑关系和方位、距离等关系,空间属性数据按照空间索引结构存储和查。空间数据挖掘(Spatial Data Mining,SDM)指的是从空间数据库
中抽取隐含的知识、空间关系或非显式地存储在空间数据库中的其它模式等[1]。从空间数据中提取信息,提取的信息包含了复杂的空间关系,因此空间数据挖掘与其他数据挖掘方法上有其独有的特点。空间数据挖掘需要综合数据挖掘与空间数据库技术。空间数据挖掘可用于对空间数据的理解,空间关系和空间与非空间数据间关系的发现,空间知识库的构造,空间数据库的重组和空间查询的优化。
    空间数据是地理信息系统的重要数据,可以是地表在地理信息系统中的二维投影,也可以是多维的立体数据。由于雷达、卫星、传感器等技术的飞速发展,空间数据的数量、大小和复杂性都在快速地增加,出现GB,TB甚至于PB级的海量数据,获取实质性有用的数据,就需要空间数据挖掘技术。所以空间数据挖掘就是处理空间数据的技术方法,是挖掘出隐藏在空间数据库中的非显性知识、空间关系等。GIS从本质说是一个空间数据管理系统,将空间数据挖掘技术应用于GIS,是将GIS中的数据转化成知识的有效方法。
    1989年8月,在美国底特律市召开的第一届国际联合人工智能学术会议上,首次出现了从数据库中发现知识(knowledge discovery in database,KDD)的概念。1994年,在加拿大渥太华举行的GIS国际学术会议上,李德仁院士首次提出了从GIS数据库中发现知识(knowledge discovery from GIS,KDG)的概念,并系统分析了空间知识发现的特点和方法,认为它能够把GIS有限的数据变成无限的知识,使GIS成为智能化的信息系统。1995年,在加拿大召开的第一届知识发现和数据挖掘国际学术会上。又出现了数据挖掘(data mining,DM),后又相继出现了数据发掘、数据开采、数据采掘、知识提取、信息发现等。同时,李德仁院士也把KDD进一步发展为空间数据挖掘和知识发现,系统地研究或提出了可用的理论、技术和方法,并取
得了很多创新性成果,奠定了空间数据挖掘和知识发现在地球空间信息学中的学科地位和基础[2]。
    2  空间数据挖掘的流程
    空间数据挖掘是空间数据库中知识发现过程的一个基本步骤。数据挖掘步骤是通过将有趣的模式提供给用户,或作为新的知识存放在知识库中这种与用户或知识库交互的方式来进行的知识发现过程的其中最重要的一步,因为它可发现隐藏的不为人知的模式。它由以下步骤组成[3]。
    (1)数据清理:通过填写空缺的值。平滑噪声数据,识别、删除孤立点,并“清理”不一致数据。(2)数据集成:对多种数据源进行集成。(3)数据选择:从数据库中检索与任务相关的数据。(4)数据变换:通过汇总或聚集等操作将数据变换成适合数据挖掘的形式。(5)数据挖掘:使用智能的方法来提取数据模式。先对数据挖掘的目标和知识类型进行确定,然后根据所需要的知识类型选择合适的挖掘算法,最后从数据库中按照选定的挖掘算法获得所需的知识。(6)模式评估:通过某种兴趣度量来评估真正有趣的知识模式。(7)知识表示:通过知识可视化表示技术向用户展示挖掘的知识通过对以上过程不断地循环操作,可以对所挖掘出来的知识进行不断求精和深化。
    而面向GIS的空间数据挖掘的过程大致可分为:确定挖掘内容、数据获取、数据预处理、挖掘方法选择、过程处理、挖掘知识应用。具体流程如图1所示。
    首先用户提出问题,系统接受用户的要求,将其转化为GIS数据库模块的输入参数。挖掘向导接受用户的命令,触发空间数据挖掘核心模块。用户则根据需要选择挖掘技术,对预处理后的数据进行挖掘。挖掘后的知识再通过提取反馈给用户[4]。
   
    3  空间数据挖掘在GIS中的应用
    空间数据挖掘技术与地理信息系统GIS的结合具有非常广泛的应用空间。数据挖掘与GIS集成具有三种模式:其一为松散耦合式,也称外部空间数据挖掘模式,这种模式基本上将GIS当作一个空间数据库看待,在GIS环部借助其它软件或计算机语言进行空间数据挖掘,与GIS之间采用数据通讯的方式联系。其二为嵌入式,又称内部空间数据挖掘模式,即在GIS中将空间数据挖掘技术融合到空间分析功能中去。第三
为混合型空间模型法,是前两种方法的结合,即尽可能利用GIS提供的功能,最大限度的减少用户自行开发的工作量和难度,又可以保持外部空间数据挖掘模式的灵活性[5]。
    利用空间数据挖掘技术可以从空间数据库中发现如下几种主要类型的知识:普遍的几何知识、空间分布规律、空间关联规律、空间聚类规则、空间特征规则、空间区分规则、空间演变规则、面向对象的。目前,这些知识已比较成熟地应用于军事、土地、电力、电信、石油和天然气、城市规划、交通运输、环境监测和保护,110和120快速反应系统等资源管理和城市管理领域。在市场分析、企业客户关系管理、银行保险、人口统计、房地产开发、个人位置服务等领域也正得到广泛关注与应用,实际上,它正在深入到人们工作和生活的各个方面。
    4  基于GIS空间数据挖掘结果的可视化
    空间数据挖掘是面向更具可视化要求的地理空间数据的知识发现过程。可视化能提供同用户对空间目标的心理认知过程相适应的信息表现和分析环境,可以考虑将空间数据挖掘过程置于可视化的环境之下。可视化与空间数据挖掘的结合促使数据挖掘经历了一个数据可视化——挖掘算法的应用——挖掘结构的验证和可视化表达——挖掘算法的进一步改进和完善的循环往复的提高过程,可视化在其中扮演着重要的角[6]。
    而基于GIS空间数据挖掘的可视化主要表现为与GIS相关的各类地图及其各类符号和要素。GIS平台中
常用的可视化方法主要包括。
    (1)基本查询技术:包括地图缩放、平移、视点选取等基本的空间查询与选择技术。
    (2)彩:利用人们对彩的视觉敏感程度很高的特点,是用彩来反映数据的变化趋势(如地貌中的分层设)、突出反映某些分布规律或者数据的本身特征(不饱和数据表示不确定性)等。在交互可视化中应该给予用户充分的自由来选取各种彩模式用于描述数据。用户可以任意调整相、亮度和饱和度等,系统环境也应该提供一些缺省或者是某些比较有效的彩模式供用户选择。
    (3)统计图技术:统计图是最常用的可视化技术,用于显示数据集的统计和发布信息,统计图包括散点图、箱图、平行坐标图、柱状图、星形图、轮廓图。这些统计图在交互可视化环境中一般同地图和其他数据视图相连,成为数据整体可视化的一部分,还可以使用聚焦、高亮、彩来加强其可视化和交互能力。
    (4)专题图可视化技术:可以通过系统内置的地图制图知识在地图上自动表达数据信息,这样可以减轻用户这方面的负担以及避免由于地图知识的缺乏而造成的不适当表达,以便用户投入主要精力来进行数据探索分析。专题图可视化技术协助用户交互式地探索空间数据,通过一些通用的、与领域无关的法则的形式,自动地选择相应的一些表达式来说明诸如属性数据类型、取值范围和属性字段之间的关系。专题图可视化还可用于交互式的可视化数据分析,并提供多种制图表达方法和工具以便用户更易于表达隐含信息。
    (5)其他交互技术:一些特殊的交互方法,如虚拟现实、触摸交互、声音交互等。
    5  基于GIS空间数据挖掘存在问题
    基于GIS的数据挖掘主要是空间数据和属性数据一体化的挖掘模式,与按传统的通过查询方式获得的知识相比,它是一种更深层次的数据处理分析。目前在这一领域的研究取得了一些成功,但未来的发展中,还有很多理论和方法有待进一步研究[7~8]。
    (1)改进挖掘的算法和效率:基于GIS数据挖掘这一块,因为有它自身领域的知识,既增大了挖掘算法的搜索空间,也增加了盲目搜索的可能性。因此要结合GIS数据和领域本身的特点改进算法,提高算法的效率以及设计出更好的相关挖掘算法。
    (2)综合式挖掘模式:在面向GIS挖掘其隐含知识规则方面,采用某种单一的方法往往挖掘出的知识甚微,因此需要通过几种挖掘技术并行的综合挖掘模式挖掘,才能从大量的GIS数据中挖掘出更多更有用的知识。
    (3)G1S软件、空间数据库与数据挖掘技术的集成:当前的GIS软件和空间数据库还不能有效地支持数据挖掘,而是通过先提取相关数据,再利用挖掘技术对数据进行挖掘,这种方式可以说增大了挖掘的工作量,降低了挖掘的效率。所以未来的研究还会向实现三者的集成应用方面发展。
    6  结语
    空间数据挖掘技术对GIS数据进行更高层次的分析,能从空间数据库中抽取隐藏的、为人们感兴趣的空间模式和特征、空间和非空间数据之间的概要关系以及其它概要数据特征。将可视化技术作为一件GIS数据挖掘工具,可以利用可视化技术丰富的图形表达能力与高度的交互机制,充分调动用户的主观能动性,融入用户的知识与经验,真正实现探索性数据分析。目前,有关这方面的研究才刚刚起步,对它的研究重点应放在构建空间数据挖掘的系统的理论框架上。如何将GIS与空间数据挖掘有效集成还有待进一步深入研究。
    参考文献
    [1]    李德仁,王树良,史文中,等.论空间数据挖掘和知识发现[J].武汉大学学报(信息科学版),2001,26(6):491-499.
    [2]    王树良.基于数据场与云模型的空间数据挖掘和知识发现[D].武汉:武汉大学,2002.
    [3]    王新洲.论空间数据处理与空间数据挖掘[D].武汉大学学报(信息科学版),2006,31(1).
    [4]    吕曹芳.基于GIS的空间数据挖掘研究进展[J].皖西学院学报,2010,4:43-46.
    [5]    刘湘南,黄方,王甲,等.GIS空间分析原理与方法[M].北京:科学出版社,2005.
    [6]    Jiawei H,Kamber M.数据挖掘:概念与技术[M].北京:机械工业出版社,2001.
    [7]    唐泽圣,孙延奎,邓俊辉.科学计算可视化理论与应用研究进展[J].清华大学学报,2001,41(4,5):199-202.
    [8]    贾泽露,刘耀林,张彤.可视化交互空间数据挖掘技术的探讨[J].测绘科学,2004,25(9):34-37.