下载此文档

搜索引擎搜索结果的聚类研究.pdf


文档分类:IT计算机 | 页数:约80页 举报非法文档有奖
1/80
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/80 下载此文档
文档列表 文档介绍
申请上海交通大学硕士学位论文




搜索引擎搜索结果的聚类研究

THE STUDY ON WEB
SEARCH RESULTS’ CLUSTERING






学 校: 上海交通大学
院 系: 电子信息与电气工程学院
专 业: 计算机应用技术
班 级: B0403393
学 号: 1040339089
硕 士 生: 周登朋
导 师: 谢康林(教授)









上海交通大学电子信息与电气工程学院
2007年1月
搜索引擎搜索结果的聚类研究

摘 要

目前,搜索引擎技术是互联网的一个非常热门的研究领域,并且出
现了一批非常优秀的搜索引擎。但目前大多数的搜索引擎以线性列表的
形式为用户返回搜索结果,而搜索结果往往是成千上万的,这使得用户
可能用很多时间才能找到自己需要的结果。如果对搜索的结果进行聚类,
把搜索结果组织成具有层次的类结构,并给每个类赋予一个具有良好描
述性的标签,那么将会大大减少用户查找自己所需要的结果的时间。
我们论文的主要工作是实现了 DIRS(Document Information
Retrieval System)系统, DIRS 系统是基于 Eclipse Plug-in 机制的一
个对 HTML 文档进行检索并对搜索结果进行聚类的搜索引擎。DIRS 系统
实现了从索引、检索整个过程,并提供了丰富的附加功能,比如 DIRS 系
统提供了让用户对搜索结果进行评分的功能,使得用户对搜索结果的评
价可以影响到最终的搜索结果的显示。在此基础上,我们还实现了一个
聚类模块。聚类模块所使用的聚类算法具有两个重要的特点:Semantic
(语义的),Hierarchical (层次的)。这一方法的主要思想是首先根
据语义信息找到具有良好描述性的类标签,然后将类标签组织成一棵有
层次的标签树。在标签树的基础上,将相关的文档分配到各个标签下,
最后确定每个类的实际内容,完成类别树的构建。本文将详述如何使用
隐含语义分析的方法来发现类别标签以及将标签组织为层次型标签树。
最后,我们使用经典的向量空间模型来实现文档的分配。

关键词:聚类算法,搜索引擎,索引,搜索结果
THE STUDY ON WEB
SEARCH RESULTS’ CLUSTERING

ABSTRACT

Currently, search engine technology is a very hot research area of
Internet technology, and some excellent search engines also come with it. But
now most of the search engines present the search result to the end user with
linear search result, as there are thousands search results at one time, it make

搜索引擎搜索结果的聚类研究 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数80
  • 收藏数0 收藏
  • 顶次数0
  • 上传人iris028
  • 文件大小2.49 MB
  • 时间2021-11-25