Web文本数据挖掘关键技术及其在网络检索中的应用
宋瑞祺
(太原高新区新闻信息中心,山西太原030006)
  [摘 要]W eb挖掘采用数据挖掘信息处理技术,从Web信息资源中发掘用户所需信息。本文在分析Web文本信息特征的基础上,揭示了W eb文本数据挖掘的目标样本的特征提取、分词处理与Web文本分类等关键技术,以G oog le为例讨论了该技术在网络信息检索中的应用。
[关键词]Web文本;数据挖掘;网络检索
  数据挖掘(Date M ining)是指从大量的数据(结构化和非
结构化)中提取有用信息和知识的过程。数据挖掘起始于数
据库知识发现(K now ledge Discovery in Database,简称K DD),这
种技术的形成和完善缘于人们对从海量信息中全面、准确、
有效获取有用信息的需要。数据挖掘包括数据库挖掘、文本
挖掘和W eb挖掘。
一、W eb文本信息的特征
Web挖掘是采用数据挖掘信息处理技术,从W eb信息资
源中挖掘用户所需信息的过程。W eb文本信息是半结构化
文本,其中的标签(T ag)为W eb挖掘带来便利。如:
<h tm l><head>
<title>G oogle桌面搜索<title>
<meta h ttp-equiv=“content-ty pe”content=“tex t/html;
charset=ut f-8”>
<tr><td><a hre f=“/&s=S9Y-
F077GG kiG9M pt JAZY9Pt-p I”><I MG b ord er=0height=110alt
=“G o og le桌面搜索”src=“h p-log o.g if”width=276></a>
</td></tr></table><BR>
<FOR M name=f meth od=G ET
action=’/search&s=06C-qjY bHY6m6iPTE spcf d5s f G I’>
<T A BLE cellSpacing=0cellPadd ing=4b order=0>
<tr>color=#000000><B>桌面</B></fon t></
font></td>
……
</tr></tab le></FORM>
<p>搜索您自己的计算机</p>
……
</b ody></htm l>
在加了<html>、<title>和<meta>、<table>等标签
后,W eb文件可提供一些附加信息,提高了数据挖掘的精度,
增加了数据挖掘的知识含量。
二、W eb数据挖掘中的关键技术
(一)目标样本的特征提取
网络信息挖掘系统采用向量空间模型,用特征词条(T1,
T2∧,T n)及其权值W i代表目标信息,在进行信息匹配时,使
用这些特征项评价未知文本与目标样本的相关程度。特征
词条及其权值的选取称为目标样本的特征提取,特征提取算
法的优劣将直接影响到系统的运行效果。词条在不同内容
的文档中所呈现出的频率分布是不同的,因此可以根据词条
的频率特性进行特征提取和权重评价.
一个有效的特征项集应该既能体现目标内容,也能将目
标同其它文档相区分,因此词条权重的正比于词条的文档内
频数,反比于训练文本内出现该词条的文档频数。构造如下
特征项权值评价函数:
Weight(w ord)=tf tk I DF i=t f ik log(N/n k+1)
其中tf
tk 表示词条T
k
在文档D
i
中出现的频数,IDF
i
为文
挡频数,N表示全部目标样本的文挡数,n k表示出现词条T k 的文挡数。若考虑词长因数,可进行标准化处理得: Weight(w ord)=
tf tk×log(N/n k+1)
∑n k=1(t f
web服务器又被称为
ik
)2×log2log(N/n k+1)
与普通的文本文件相比,W eb文档中有明显的标识符,结构信息更加明显,对象的属性更为丰富。
(二)分词处理与W eb文本分类
拼音文字的字词以空格作为固定的分隔符,而中文则没有,这给中文信息处理带来很大障碍,不同的切分会导致不同的语意。目前,汉语文本的自动分词主要有词典词、切分标记法、单汉字标引法和智能分词法。比较简单有效的分词方法是基于大型词库的机器分词法。通用词库包含了大量不会成为特征项的常用词汇,为了提高系统运行效率,系统根据挖掘目标建立专业的分词表,这样可以在保证特征提取准确性的前提下,显著提高系统的运行效率。
进行词条切分时,先根据标点进行粗切分,然后再分别使用正向和逆向最大匹配法进行细切分。在进行词频统计时.考虑到自然语言的多样性,系统建立并使用相应的同义词典、相关词词典等辅助词典,以提高信息匹配的准确度。
对于Web文本的分类,则可以根据分词的结果进行,若有n个项目(term),文本D i就可以表示为一个n维向量;W ij 表示文本D i的第j维的权值,即项目权值(term weight)a。
三、W eb文本挖掘技术在网络检索中的应用
网络信息检索就是网络信息挖掘的一种,并且W eb文本挖掘是信息检索过程的一部分。
以G oogle(w w w.G oog le)为例,G oogle的搜索机制是:几个分布的Craw ler(自动搜索软件)同时工作—在网上“爬行”,URI.服务器则负责向这些Craw ler提供URI.的列表。Crawler所到的网页被送
到存储服务器((S tore Server)中。存储服务器于是就把这些网页压缩后存人一个知识库(repository)中。每个网页都有一个关联ID-d oc ID,当一个新的URL从一个网页中解析出来时,就被分配一个d oc ID。索引库(Ind exer)和排序器((S orter)负责建立索引,索引库从知识库中读取记录,将文档解压并进行解析。每个文档就转换成一组词的出现状况(w ord occurrences),称为hits。hits记录了词、词在文档中的位置、字体大小、大小写等。索引库把这些h it又分成一组“barrels”,产生经过部分排序后的索引。索引库同时分析网页中所有的链接并将重要信息存在Anchors 文档中。这个文档包含了足够信息,可以用来判断一个链接被链入或链出的结点信息。
URI-分解器(UR L Res olv er)阅读Anch ors文档,并把相对的UR L转换成绝对的UR Ls,并生成d oc ID,它进一步为An2 ch or文本编制索引,并与Anch or所指向的d oc I D建立关联。同时,它还产生由doc ID对(pairs of doc ID)所形成的数据库。这个链接数据库(Links)用于计算所有文档的页面等级(Pagerank)。
排序器读取barrels,并根据词的ID号(w ord ID)列表来生成倒排挡。一个名为Dump Lexicon的程序则把上面的列表和由索引库产生的一个新的词表结合起来产生另一个新的词表供搜索器((Searcher)使用。这个搜索器就是利用一个W eb 服务器,并使用由Du mpLex icon所生成的词表,并利用上述倒排挡以及页面等级来回答用户的提问。
从G oogle的体系结构、搜索原理中可以看到,其关键而具有特的一步是:利用UR L分解器获得Links信息,并且运用一定的算法得出了页面等级的信息,所采用的技术就是Web文本挖掘技术。
[参考文献]
[1]G udivada V N.In formation retrieval on th e W orld W ide Web[J].IEEE Internet Computing,1997,1(5):58-68.
[2]苏新宇等.数据挖掘理论与技术[M].北京:科学技术文献出版社,2003.
[3]李水平.数据采掘技术回顾[J].小型微型计算机系统,1998,19(4):74-81.
[4]邹涛等.基于WW W的文本信息挖掘[J].情报学报, 1999,(18).
[责任编辑郭小兵]
5
2007年4月第10卷第1期        山/西/财/经/大/学/学/报(高等教育版)       
Journal of ShanXi Finance and Econ om ics Uni vers ity(higher educati on edition)
A pr.,2007
V ol.10No.1 8
:
9