下载此文档

因特网上中文搜索引擎的评述.doc


文档分类:IT计算机 | 页数:约6页 举报非法文档有奖
1/6
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/6 下载此文档
文档列表 文档介绍
因特网上中文搜索引擎的评述
叶中行 葛 勇 叶 蕾
---- 摘自《科学》2001第3期
  因特网上的科学信息和电子杂志的总量在持续增长,整个网络可看作是一个可以检索的150亿单词的大电子百科全书。但是这些信息是极其无序的,如何获取和利用因特网上的信息已经成了一个大问题。目前解决这一问题的最佳途径是利用搜索引擎。
  因特网上的信息呈几何级数增长,快速有效地查询一项艰巨的任务,这个需求直接导致了广域网信息检索技术的快速发展,各类搜索引擎层出不穷。
  所谓搜索引擎,是指因特网上的在万维网 (WWW)中主动搜索信息并能起自动索引、提供查询服务的一类网站,这些网站通过网络搜索软件(又称为网络搜索机器人)或网站登录等方式,将因特网上大量网站的页面收集到本地,经过加工处理而建成数据库,从而能够对用户提出的各种查询作出响应,提供用户所需的信息。科学家很早就梦想能够快速检索所有的科技文献,现在,搜索引擎使得在数秒钟内取得大量的文献成为可能。
中文搜索引擎概述
  中文搜索引擎的出现是最近几年的事情,但发展很快。它的性能究竟如何,能检索到的信息有多少,因特网上的中文信息或网页知多少,这些都是值得关心的问题。
  目前中文引擎共有约80多个,可以分为两类,一类是自由词或关键词检索搜索引擎,另一类是分类搜索引擎。由于语言、文化上的差异,中文搜索引擎必然与国外的搜索引擎有所不同。中文搜索引擎有两个特点。
  1.内码:由于历史原因,目前世界上使用中文的国家与地区在中文语言的使用上有较大差别,体现在计算机处理上也有很大不同,其中最重要的区别是采用不同的字符集及内码体系,例如祖国大陆用的是GB码,而中国台湾地区则用BIG5码,字符集的大小也不尽相同?
  2.分词:西文单词用空格分隔相当清晰,而此法对中文的字词则行不通,因此造成传统上就的不同处理方法。一种是完全单汉字全文检索,即将文章中的每一个汉字都进行索引,而将用户的检索提问根据单汉字匹配的原则去检索。此法查全率高,但查准率低。此处还有一种方法,则是目前绝大多数中文搜索引擎采用的分词方法,即根据一定的原则和手段来对文章进行自动分词,然后按词建库,对检索结果按词汇匹配进行查询。一般来讲,这样既比较准确又能提高整个系统的检索响应效率。但中文的组词十分复杂,常用名词、专用名词、地名、人名、成语等各不相同,目前的中文搜索引擎还没有很好地解决中文名词分词的技术,往往影响了引擎的查准率?
  如同因特网上的信息一样,搜索引擎的发展本身也是无序的,如何选择最符合需要的搜索引擎,通过其在因特网上以最小的代价找到所需要的信息,这些涉及到对搜索引擎性能的评价?
中文搜索引擎的评价方式
  要有效地评价各中文引擎,首先要选定评价标准。(1)资料全:即查全率高,以免为了某一信息要查询多个搜索引擎;(2)信息准:即搜索得到的信息与用户所要求的信息的相关性高,查准率直接影响到搜索的速度和费用;(3)速度快;(4)费用省。用四个字表述就是:全、准、快、?   劳伦斯和贾尔斯曾对Alta Vista、 Excite、 HotBot、 In-foSeek、 Lycos、 Northern Light以及Alta Vista、 EuroSeek、
中英文集成搜索引擎及网址
英文集成搜索引擎
Easy Searcher2 H

因特网上中文搜索引擎的评述 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数6
  • 收藏数0 收藏
  • 顶次数0
  • 上传人rdwiirh
  • 文件大小56 KB
  • 时间2021-02-26