下载此文档

面向跨领域海量信息资源的元搜索引擎研究.docx


文档分类:IT计算机 | 页数:约21页 举报非法文档有奖
1/21
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/21 下载此文档
文档列表 文档介绍
面向跨领域海量信息资源的元搜索引擎研究.docx1引言
跨领域海量信息资源搜索是从事交叉学科研究、推动新兴学科领域发展的重 要前提。目前,独立搜索引擎已成为获取跨领域海量信息资源的主要手段。独立 搜索引擎具有两个基本特征:第一,单个独立搜索引擎的覆盖面较低。文献[1] 的调查研究证明独立搜索引擎仅能返回所有WWW资源的15%;第二,两个不同 搜索引擎对同一个检索提问的重复率较低。文献[2]对MSH、Google、Yahoo、Ask Jeeves等四大搜索引擎对同一个搜索提问所返回结果进行比较研究发现,其中 四个、三个、%、% %。根据独立搜索引擎的上述两个基本特征,可以得出如下两条结论: 第一,由于独立搜索引擎的覆盖面有限,任何一个独立搜索引擎都无法胜任跨领 域海量信息资源的搜索任务;第二,由于独立搜索引擎之间的重复率低,多个搜 索引擎的搜索结果具有互补性,通过多个独立搜索引擎的集成应用可以较好地实 现跨领域海量信息资源的搜索任务。因此,本文主要探讨基于元搜索引擎的海量 信息资源搜索及其改进方案。论文的主要内容安排如下:第二部分主要梳理了现 有研究基础以及目前面向跨领域海量信息资源的元搜索引擎研究中需要解决的 四个主要挑战;第三部分以解决上一部分所提出的四个挑战为主要目的,设计了 面向跨领域海量信息资源的元搜索引擎研究的基本思想、框架设计、流程设计和 关键技术;第四部分采用OWL测试领域本体集和Jena接口开发出了原型系统, 验证了本文研究的可行性;最后对论文研究进行简要总结,并描述了下一步研究 工作。
2相关研究
2. 1研究现状
从以上分析看出,元搜索引擎可以弥补独立搜索引擎的两个局限性,为跨领 域海量信息的搜索提供了重要解决方案。元搜索引擎是指一种通过转发用户搜索 提问至多个独立搜索引擎、
Web目录或尚未被传统独立搜索引擎直接索引的隐藏 网络(Deep Web),并对所返回结果进行重复过滤、合并、排序等以完成用户提 交的一次信息检索任务的搜索工具[3]。与传统搜索引擎不同的是,元搜索引擎 一般不需要通过自己的网络机器人爬取网络信息资源和在本地存储与维护网络 资源的索引库。因此,相对于独立搜索引擎,元搜索引擎具有覆盖面广、维护方 便等优势。元搜索引擎一般由三部分组成,即检索请求提交代理、检索接口代理、 检索结果显示代理[4](见图1)。元搜索引擎的工作过程分为如下步骤:“检 索请求代理”负责接收用户的原始查询,并把原始查询分别转换为各个成员搜索 引擎能够接受的形式:“检索接口代理”负责向成员搜索引擎发送查询请求;“结 果显示代理”负责收集各个搜索引擎的原始查询结果,并对其结果进行合并、去 重和排序,把最终查询结果递交给用户[5]。


图1元搜索引擎原理
元搜索引擎在理论研究和开发应用领域取得了一定的进展。学术界在元搜索 引擎的基本原理、组成部分和工作过程等方面已达成共识,成员选择、相关性排 序、个性化、效率提高逐渐成为该领域学术研究的热点问题。其中,成员选择机 制可分为两种,即系统选择机制和用户选择机制,用户选择机制可以根据用户具 体需求选择不同的成员搜索引擎,能够提高信息资源搜索的准确率[6];相关性 排序技术可分为收集结果重新排序(直接合并、根据相应速度排序、摘要排序、 成员排序)、利用搜索引擎排序信息排序(轮询法、星星排序、Borda排序、位 置排序、概念可信度排序、贝叶斯概率模型排序)和相关分值融合(Comb排序、 SDM法、MEM法、CORINET法)三大类[7];元搜索引擎的个性化需要在元搜索引 擎的三个基本组成部分的基础上,再增加个性化代理和个人信息库,用来计算用 户个人信息或其搜索历史记录与检索结果之间的相关性,并将相关性较高的检索 结果显示给用户。文献[8]提出一种基于用户记录(User Profile)的元搜索引 擎方案,探讨了如何根据用户记录信息推理用户信息需求的问题;文献[9]探讨 了如何通过用户提问、检索结果和点击记录来提高元搜索引擎的查准率问题。在 应用开发领域,诸多元搜索引擎已被投入使用,元搜索引擎之间的比较分析成为 热点话题。文献[10]采用计算元搜索引擎与所对应的独立搜索引擎之间的距离 (closeness)方法,对 Clusty、Dogpile> Excite、Mamma、MetaCraw、Search.
com、Web-Crawler和Webfetch八个典型元搜索引擎的搜索效果进行了评估;文 献[11]从信息检索功能(布尔检索、词组短语检索、截词检索、限定检索、位置 检索、概念检索、多语种检索和自然语言检索)的角度比较分析了万纬、搜星、 一起搜、Bbmao、Jux2、Dogpile^ Mamma、Clusty 和 Vivisi

面向跨领域海量信息资源的元搜索引擎研究 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数21
  • 收藏数0 收藏
  • 顶次数0
  • 上传人小雄
  • 文件大小124 KB
  • 时间2021-02-24