基于Web数据挖掘的探索
【摘要】随着互联网的快速发展,Web数据挖掘已经成为当今热门的研究主题。本文介绍了Web数据挖掘的基本概念、Web数据的特点及其Web数据挖掘分类,并对Web数据挖掘技术的研究进行讨论。利用Apriori算法发现频繁集,到页面间的关联规则。针对网页超链接结构的特点:一条超链接只能建立在两个网页上,发现频繁集只要出所有2-项集即可,从而提出网页超链接挖掘的NApriori算法。NApriori算法显著提高了Apriori算法的效率。
【关键词】数据挖掘;Web挖掘;挖掘技术;挖掘算法
1.引言
随着Internet的快速普及和迅猛发展,基于Internet各种应用也迅速的发展起来,例如网络教育、网上银行、电子商务、网络广告等。Internet将成为人类生活不可缺少的一部分。在Internet给人们生活带来方便的同时,它也给我们带来了新的问题与挑战。
它使得Web上的信息量以惊人的速度增长,随之而来的问题是庞大的数据使人难以消化,如何从大量的数据中获取我们所需的数据和信息,这些问题急于需要我们解决,而解决这种需求的
一个有利的手段就是Web数据挖掘,Web挖掘是使我们不至于在数据的汪洋中迷失方向的新技术。因此,Web挖掘技术应运而生。
2.Web数据的特点
WWW目前是一个巨大的、分布广泛的和全球性的信息服务中心,它涉及体育、新闻、广告、消费信息、金融管理、教育、政府、电子商务和许多其他信息服务。其有自身特有的性质与要求,包括以下几点:
1)对有效的数据仓库和数据挖掘,Web太庞大,Web的数据量以兆字节计算,而且仍在迅速地增长,这就要求Web挖掘方法在对大数据集进行挖掘时依然具有高效率;
2Web页面的复杂性远比任何传统的文本文档大。Web页面缺乏统一的结构,它包含了远比任何一组书籍或其他文本文档多的风格和内容,这就需要Web挖掘系统具有一定的智能性和学习机制,不断地跟踪用户的检索需求以挖掘出正确的结果。
3.Web数据挖掘分类
Web数据挖掘是用数据挖掘技术在Web文档和服务器中自动发现和提取感兴趣的、有用的模式和隐含的信息。按照挖掘对象的不同,可以将Web挖掘分为三大类:Web内容挖掘、Web结构挖掘和Web使用挖掘。
3.1 Web内容挖掘
Web内容挖掘是对Web页面内容进行挖掘,是从大量的Web数据中发现信息、提取知识的过程。这些数据既有文本数据,也有视频、音频、图片等多媒体数据。就其数据库方法而言,把半结构化的Web信息重构变更成结构化内容,然后就可以使用标准化的数据库查询机制和挖掘方法进行分析。
3.2 Web结构挖掘
Web结构挖掘的对象是Web本身的超连接,即对Web文档的结构进行挖掘。Web可以看成一个以网页为节点、链接为边的图结构,超链接反映了网页间的包含、引用或从属关系。通过挖掘Web的结构信息,可以揭示许多蕴涵在Web内容之外的隐含的有用信息。
3.3 Web使用(Usage)挖掘
通过挖掘Webweb服务器域名是什么日志记录,发现用户访问Web页面的模式。分析和探索Web日志记录中的规律,可以识别电子商务的潜在客户,增强对最终用户的因特网信息服务的质量和交付,并改进Web服务器系统性能。基于URL、时间、IPWeb页面内容信息,可以对Web日志数据库构造多维试图,进行OLAP分析,出头N个访问页面,最频繁访问时间周期等等,这有助于发现潜在客户、用户、市场等等;可以对Web日志进行数据挖掘,出关联模式、序列模式和Web访问趋势等。
4.Web数据挖掘技术实现
Web数据挖掘中常用的技术通常可以分为两类:一类是建立一种以机器学习为主的人工智能模型,采用的方法有神经网络、自然法则计算方法和Web特有的路径分析技术等。另一类是是建立在统计模型的基础上,采用的技术有决策树、分类、聚类、关联规则等。
4.1 序列模式挖掘技术
序列模式挖掘技术就是要挖掘出交易集之间的有时间序列的模式。经过数据净化和交易确定后是一个间断的时间序列,这些序列所反映的用户行为有助于商家印证其产品所处的生命周
期阶段。另外挖掘出来的一些暂时性的序列模式,可以分析企业战略实施或网站、产品的促销的效果。例如在线定购电脑的用户,50%的人会在2个月内定购打印机。发现序列模式能够便于电子商务的决策者预测客户的访问模式,对客户提供个性化服务;网站管理员可利用发现的序列模式预测用户即将可能请求的页面,这样就可以针对特定用户在页面中放置不同的广告来增加广告点击率。
4.2 分类、聚类技术
分类规则可以挖掘出某些共同的特性,这个特性可以用来对新添到数据库里的数据项进行分类。在Web数据挖掘中,分类技术可以根据访问这些用户而得到的个人信息或共同的访问模式,得出访问某一服务器文件的用户特征。例如我们可能从日志中发现,在产品提交的定单中,有30%是居住在大中城市并且年龄段在2030岁之间。得到这个分类后,就可以针对这部分用户的特点开展商务活动。聚类不同与分类,聚类技术则是对符合某一访问规律特征的用户或数据项归类,在网站管理中通过聚类具有相似浏览行为的用户进行归类,使管理员更多地了解用户,为用户提供更满意、更个性化的服务。
4.3 关联规则挖掘技术
关联规则挖掘技术主要用于从用户访问序列数据库的序列项中挖掘出相关的规则,就是要挖掘出用户在一个访问期间,从服务器上访问的页面/文件之间的联系,这些页面之间可能并不存在直接的参引关系。最常用的是用Aprior算法,从事务数据库中挖掘出最大频繁访问项集,这个项集就是关联规则挖掘出来的用户访问模式。例如通过对Web站点服务器的日志进行关联规则的挖掘,发现访问室内击剑页面的用户,其中的30%也访问射击页面。访问游泳和跳水页面的用户,其中的60%也访问体操页面。进行Web挖掘,利用在Web上的关联规则的发现,构建关联模型,可以针对客户动态调整站点的结构,使用户访问的有关联的文件间的连接能够比较直接。