数据库和学术搜索引擎的比较研究
戴春春 12030804
常州工学院
12物联网
E-mail:1602665297@qq
摘要:近几年来中国学术期刊数据库以及各大搜索引擎都发展很快,而且在发展过程中形成了自己的特。本文选取了中国知网、维普以、万方中学术期刊数据库以及百度、谷歌、必应搜索引擎作为研究对象,从它们各自的适应范围、收录情况,数据库结构以及检索功能及结果等方面进行比较分析,从而得出各类搜索引擎之间的联系与区别。使我们在信息检索中选择了好的搜索引擎,才能快速、准确地到所需要信息。
关键词:数据库;搜索引擎;比较分析
引言
信息技术的不断发展,特别是互联网应用的迅速普及,深入到了人们生活的各个方面,改变了人们生活方式和思维方式,方便了全球信息资源共享。全球目前的网页超过100亿,每天新增加数百万网页,电子信息爆炸似的丰富起来。要在如此浩瀚的海洋里寻信息,就像“大海捞针”一样。能有一种工具使我们可以在不到1秒钟的时间就迅速到我们想要的内容吗?答案是“有”,这就是搜索引擎。今天,搜索引擎已成为人们在网络信息海洋中自如冲浪必不可少的利器。与此同时,各种类型的期刊数据库以其方便快捷的特点为广大读者所接受。目前国内学术文献信息服务市场上利用率最高,影响范围最广,市场份额最大的中文期刊全文数据库有中国期刊网CNKI、重庆维普科技期刊VIP和万方数据——中国数字化期刊。
那么,在多个数据库和学术搜索引擎中进行检索,又会出现怎样的异同?本文就是我用不同的搜索引擎和专业数据库对智能推荐系统进行的检索结果。 
1、搜索引擎的简介
1.1 搜索引擎的概述
用户输入所需查询条件后,根据此查询条件在网络或者其他数据来源中按照某种方式在数据源
中检索并搜集信息,同时对所获取到的信息进行一系列的处理,例如分析和存储等,并将处理后的结果返回给用户,这种能够为用户提供信息导航作用的系统称为搜索引擎。
全文搜索引擎、元搜索引擎,以及目录索引类搜索引擎是当前主要的搜索引擎分类,这三类搜索引擎的差别,主要是按照其工作方式的不同进行划分的。
1.2全文搜索引擎
此类搜索引擎中,索引和检索等关键性的操作都是基于全文检索的方法和模式,为用户提供全文检索服务。当用户需要检索时,这类搜索引擎从索引数据库中查询与检索条件匹配的条目,并对相匹配的记录进行排序,将排序后的信息作为查询结果返回给用户。因此,全文搜索引擎是真正意义上的搜索引擎。 
1.3元搜索引擎
这种搜索引擎可调用其他搜索引擎来完成自身的搜索服务,从而使用户能够通过元搜索引擎从其他独立搜索引擎中进行网络搜索。通过元搜索引擎,用户可以只进行一次查询,从多个预先设定的独立搜索引擎中得到查询结果。这个过程中,元搜索引擎对用户提交的查询条件进行相
应处理后,提交给多个独立的搜索引擎,并将搜索结果集进行处理后返回给用户。相对于单个搜索引擎,元搜索引擎通过综合利用多个搜索引擎的搜索服务,在一定程度上提高了搜索的查全率和查准率。但是,由于需要综合査询结果,因此要等待全部所调用的搜索引擎完成搜索提交结果并综合后,才能为用户返回最终结果,因而元搜索引擎通常搜索速度比较慢。元搜索引擎中比较著名的有VivisimoInfoSpace等。 
1.4目录索引类搜索引擎
该类搜索引擎是通过人工浏览各网站的信息,按照一定的分类规则或分类体系,对网站进行分类。总体上说,错误相对较少、结构条理清晰、较为符合人们的阅读方式是这类搜索引擎的优点。这类搜索引擎的缺点则是需要的工作人员多、信息整理耗时、速度慢、需要人工进行处理,无法适应网络信息的发展,除此之外,如果检索的信息为进行分类处理,则无法进行搜索。目录索引类搜索引擎虽然有搜索功能,但其只算是按目录分类网站链接列表。 
二、各大搜索引擎的特点
2.1百度搜索引擎的特点
百度搜索到相关结果约55,300,000个。百度作为全球最大的中文搜索引擎,在查资料时更显方便,不但有输入提示,网页快照,而且百度百科在解释术语方面还比较详细。搜索时间也很快,稳定性强,搜索结果与谷歌比也不相上下,而且更新较快。
1 百度搜索
2.2谷歌搜索引擎的特点
谷歌搜索到1,270,000条结果,用时0.34秒。“Google”搜索特点是速度快而且提供了最丰富的高级搜索功能。但是死链率比较高是Google最大的问题,稳定性不够高。特别是“网页快照”功能,有却出现不可访问的问题并且内容更新不是很及时。
2谷歌搜索
2.3必应搜索引擎的特点
与传统搜索引擎只是单独列出一个搜索列表不同,微软还会对返回的结果加以分类。另外,侧边栏还会显示一组相关的搜索关键词。必应网站是收录最慢的一个搜索引擎,一般都是要一个月进行收录,同时收录的内容也是比较少。但是,它对英语网站的收录量和速度很快。
3必应搜索
三、专业数据库的简介
3.1三种中文全文数据库基本情况概述
中国期刊全文网(简称“CNKI)是由清华同方光盘股份有限公司、光盘国家工程研究中心和中国学术期刊(光盘版)电子杂志社共同研制出版的综合性全文数据库。创建于1994年,199612月正式发行,是我国第一个连续出版的大型集成化学术期刊全文数据库。通过建立镜像站点、互联网远程访问等方式提供服务。
中文科技期刊数据库(简称“维普”)由科技部西南信息中心主办,重庆资讯有限公司制作,收录了1989年以来的文献资料,2001年正式出版发行。其前身为《中文科技期刊篇名数据库》,是目前我国收录期刊最全的综合性全文期刊文献数据库。
数据库简单吗万方数据资源系统数字化期刊(简称万方)是万方数据库资源系统三大组成部分之一,由中国科技信息研究所属下的北京万方数据股份有限公司创办。它是国家九五重点科技攻关项目“科技期刊网络服务系统”的组成部分,由万方数据网络中心具体运行。
3.2万方数据库的特点
万方数据资源系统搜索到654条记录。万方数据资源系统包括多个数据库资源,针对不同的数据库特点设计了不同的检索入口,在选定的数据库中输入检索词或构建的检索式,即可在系统默认的简单检索界面上通过单击“检索”按键进行相应的查询。