因特网上中文搜索引擎的评述
叶中行 葛 勇 叶 蕾
---- 摘自《科学》2001第3期
因特网上的科学信息和电子杂志的总量在持续增长,整个网络可看作是一个可以检索的150亿单词的大电子百科全书。但是这些信息是极其无序的,如何获取和利用因特网上的信息已经成了一个大问题。目前解决这一问题的最佳途径是利用搜索引擎。
因特网上的信息呈几何级数增长,快速有效地查询一项艰巨的任务,这个需求直接导致了广域网信息检索技术的快速发展,各类搜索引擎层出不穷。
所谓搜索引擎,是指因特网上的在万维网 (WWW)中主动搜索信息并能起自动索引、提供查询服务的一类网站,这些网站通过网络搜索软件(又称为网络搜索机器人)或网站登录等方式,将因特网上大量网站的页面收集到本地,经过加工处理而建成数据库,从而能够对用户提出的各种查询作出响应,提供用户所需的信息。科学家很早就梦想能够快速检索所有的科技文献,现在,搜索引擎使得在数秒钟内取得大量的文献成为可能。
中文搜索引擎概述
中文搜索引擎的出现是最近几年的事情,但发展很快。它的性能究竟如何,能检索到的信息有多少,因特网上的中文信息或网页知多少,这些都是值得关心的问题。
目前中文引擎共有约80多个,可以分为两类,一类是自由词或关键词检索搜索引擎,另一类是分类搜索引擎。由于语言、文化上的差异,中文搜索引擎必然与国外的搜索引擎有所不同。中文搜索引擎有两个特点。
1.内码:由于历史原因,目前世界上使用中文的国家与地区在中文语言的使用上有较大差别,体现在计算机处理上也有很大不同,其中最重要的区别是采用不同的字符集及内码体系,例如祖国大陆用的是GB码,而中国台湾地区则用BIG5码,字符集的大小也不尽相同?
2.分词:西文单词用空格分隔相当清晰,而此法对中文的字词则行不通,因此造成传统上就的不同处理方法。一种是完全单汉字全文检索,即将文章中的每一个汉字都进行索引,而将用户的检索提问根据单汉字匹配的原则去检索。此法查全率高,但查准率低。此处还有一种方法,则是目前绝大多数中文搜索引擎采用的分词方法,即根据一定的原则和手段来对文章进行自动分词,然后按词建库,对检索结果按词汇匹配进行查询。一般来讲,这样既比较准确又能提高整个系统的检索响应效率。但中文的组词十分复杂,常用名词、专用名词、地名、人名、成语等各不相同,目前的中文搜索引擎还没有很好地解决中文名词分词的技术,往往影响了引擎的查准率?
如同因特网上的信息一样,搜索引擎的发展本身也是无序的,如何选择最符合需要的搜索引擎,通过其在因特网上以最小的代价找到所需要的信息,这些涉及到对搜索引擎性能的评价?
中文搜索引擎的评价方式
要有效地评价各中文引擎,首先要选定评价标准。(1)资料全:即查全率高,以免为了某一信息要查询多个搜索引擎;(2)信息准:即搜索得到的信息与用户所要求的信息的相关性高,查准率直接影响到搜索的速度和费用;(3)速度快;(4)费用省。用四个字表述就是:全、准、快、? 劳伦斯和贾尔斯曾对Alta Vista、 Excite、 HotBot、 In-foSeek、 Lycos、 Northern Light以及Alta Vista、 EuroSeek、
中英文集成搜索引擎及网址
英文集成搜索引擎
Easy Searcher2 H
因特网上中文搜索引擎的评述 来自淘豆网www.taodocs.com转载请标明出处.