下载此文档

个性化信息检索系统中文本聚类的研究.pdf


文档分类:IT计算机 | 页数:约31页 举报非法文档有奖
1/31
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/31 下载此文档
文档列表 文档介绍
摘 要

随着互联网发展和普及,“检索”已经成为人们生活中的一部分。互联网已
经把全世界连在了一起,如何从浩瀚的信息海洋中找到自己想要的东西呢,答案
就是“检索”。
在众多检索系统中,对于学术研究最有用的当属文献检索了,但是当前的文
献检索系统大都只能进行关键字匹配的检索,抓不住用户的兴趣,如果检索系统
能够获取用户的兴趣,就可以使用户在一次又一次的检索中会发现自己想要的文
献总是能出现在排序的最前面,肯定大大方便了用户,使其对所使用的检索系统
大家赞赏并决定长期使用,这无论对用户还是检索平台都是大有益处的。
本着以上的思想,本小组开始制作这样一个检索系统,它能通过用户的检索
行为来获取用户的兴趣,并将兴趣相似的用户组成用户组,以方便用户的交流,
共享资源。本文讨论的是我们小组所做的检索系统中的基础部分,包括文本预处
理,对文本向量进行聚类构建系统底层部分。本人的工作具体是完成了文本处理
程序可以对文献进行预处理,它可以将分词后的文本转化为向量;可以对题目,
关键词,摘要加权,并调整其权重;可以按词性提取特征;完成对其停用词表的
控制;程序可以生成文档频数,tfidf 的特征向量,支持向量机的特征向量等多
种特征向量。并且在随后聚类试验中,改进 AP[1] (Affinity propagation
clustering) 聚类,使其获得更好的聚类结果。
AP 聚类有一个优点,就是如果使用者不知道数据的类数,不用指定类数也
可以很好的进行分类,但是有时侯我们知道类数,那么我们怎么能提高分类的效
果呢?本篇论文提出了一种改进的 AP 聚类算法来处理这种情况。当你知道数据
类数的时候,可以指定 AP 最终聚成的类数。实验也表明了,它不低于原 AP 聚类
算法的效果

关键词:信息检索;特征提取;文本聚类;改进的 AP 聚类算法
Abstract

With the developing and dissemination of the internet, “Retrieval” has become a
part of daily live. Internet joins all over the world together, but how can we find what
we need? The answer is retrieval.
Literature retrieval is most usefulness for researchers in many retrieval systems.
But now most retrieval systems can only have retrieval technique on matching of
keywords, but it can’t get the interests of the users. If the system can get them, it will
be convenient for the users, because it can put the interested literatures in the head.
Our teams have started to design a system which can get the interests by the behaviors
of the users, and compose the user whose interests are similar to a user group. So they
can exchange and sharing if resources. The paper discusses the basic part of the
retrieval system which our team designs, my work contains text processing, clustering.
I complete the process which can convert the words to vectors. It can control the stop
word list, generate vector. I also improve the

个性化信息检索系统中文本聚类的研究 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数31
  • 收藏数0 收藏
  • 顶次数0
  • 上传人陈潇睡不醒
  • 文件大小981 KB
  • 时间2021-10-03
最近更新