下载此文档

信息检索模型.ppt


文档分类:IT计算机 | 页数:约23页 举报非法文档有奖
1/23
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/23 下载此文档
文档列表 文档介绍
信息检索模型信息检索模型?信息检索模型( Information Retrieval Model )是指如何对查询和文档进行表示, 然后对它们进行相似度计算的框架和方法。?本质上是对相关度建模。?信息检索模型是 IR中的核心内容之一。原始文档相关度计算文档表示原始查询查询表示信息检索模型用形式特征可以将信息检索模型表示为一个四元组的模型框架: IR = <D, Q, R(q,d)> 。 D是文档表示 Q是查询表示 R(q , d ) 是一个排序函数相关概念?标引词(Index Term) 标引词是能代表文档内容的特征,可以是字、词、短语或者某种语义单元,关键词(key words) 可以看成标引词的一种。文档表示成多个标引词的集合?标引词的权重(Weight) 不同标引词作用是不同的通过权重加以区分信息检索模型的分类从所使用的数学方法上分: ?基于集合论的 IR模型(Set Theoretic models) 布尔模型基于模糊集的模型扩展布尔模型?基于代数论的 IR模型(Algebraic models) 向量空间模型潜性语义索引模型神经网络模型?基于概率统计的 IR模型(Probabilistic models) 回归模型概率模型语言模型建模 IR模型推理网络模型信任度网络模型布尔模型( Boolean Model ) ?布尔模型:查询和文档均表示为标引词(“是否存在”) 的布尔表达式,通常表示成 D(t 1, t 2,?, t i)的形式。?布尔操作(关系) :与(AND) 或(OR) 非(NOT) ?相似度计算:查询布尔表达式和所有文档的布尔表达式进行匹配,匹配成功的文档的得分为 1,否则为0。?类似于传统数据库检索,是精确匹配布尔模型的优点?简单、易理解、易实现?现代很多搜索引擎中仍然包含布尔模型的思想,如 Google 的高级检索布尔模型的局限性?只能严格匹配,文献要么相关、要么不相关,并没有一个相关级别的概念,因此很难有好的检索效果?构造布尔逻辑式不容易,对于一般用户而言,很难用 AND 、 OR 、 NOT 运算符的结合来准确地表达一个检索语句,标引词的简单组配不能完全反映用户的实际需要; ?检索输出完全依赖于布尔提问与文献的匹配情况,很难控制输出量的大小?结果不能按用户定义的重要性排序输出,用户只能从头到尾浏览输出结果才能知道哪些文献更适合自己的需要向量空间模型?向量空间模型(Vector Space Model , VSM) 是康奈尔大学 Salton 等人上世纪 70 年代提出并倡导,原型系统 SMART ?标引词独立性假设:标引词在文档中的出现是独立、互不影响的。?查询和文档都可转化成标引词及其权重组成的向量?向量之间通过距离计算得到查询和每个文档的相似度。向量表示?文档 Dj的向量可以表示为 Dj(w 1j,w 2j,?, w nj ) ,其中 n是系统中的标引词数目, w ij代表了标引词 i在文档 Dj中的权重。?查询 Q的向量可以表示为 Q(w 1q,w 2q,?, w nq ) ,w iq代表了标引词 i在查询 Q中的权重

信息检索模型 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数23
  • 收藏数0 收藏
  • 顶次数0
  • 上传人yixingmaob
  • 文件大小0 KB
  • 时间2016-04-22