下载此文档

信息检索模型.ppt


文档分类:IT计算机 | 页数:约23页 举报非法文档有奖
1/23
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/23 下载此文档
文档列表 文档介绍
信息检索模型信息检索模型信息检索模型(InformationRetrievalModel)是指如何对查询和文档进行表示,然后对它们进行相似度计算的框架和方法。本质上是对相关度建模。信息检索模型是IR中的核心内容之一。原始文档相关度计算文档表示原始查询查询表示信息检索模型用形式特征可以将信息检索模型表示为一个四元组的模型框架:IR=<D,Q,R(q,d)>。D是文档表示Q是查询表示R(q,d)是一个排序函数相关概念标引词(IndexTerm)标引词是能代表文档内容的特征,可以是字、词、短语或者某种语义单元,关键词(keywords)可以看成标引词的一种。文档表示成多个标引词的集合标引词的权重(Weight)􀁺不同标引词作用是不同的通过权重加以区分信息检索模型的分类从所使用的数学方法上分:基于集合论的IR模型(SetTheoreticmodels)􀁺布尔模型􀁺基于模糊集的模型扩展布尔模型基于代数论的IR模型(Algebraicmodels)向量空间模型潜性语义索引模型神经网络模型基于概率统计的IR模型(Probabilisticmodels)回归模型概率模型语言模型建模IR模型推理网络模型信任度网络模型布尔模型(BooleanModel)布尔模型:查询和文档均表示为标引词(“是否存在”)的布尔表达式,通常表示成D(t1,t2,⋯,ti)的形式。布尔操作(关系):与(AND)或(OR)非(NOT)相似度计算:查询布尔表达式和所有文档的布尔表达式进行匹配,匹配成功的文档的得分为1,否则为0。类似于传统数据库检索,是精确匹配布尔模型的优点简单、易理解、易实现现代很多搜索引擎中仍然包含布尔模型的思想,如Google的高级检索布尔模型的局限性只能严格匹配,文献要么相关、要么不相关,并没有一个相关级别的概念,因此很难有好的检索效果构造布尔逻辑式不容易,对于一般用户而言,很难用AND、OR、NOT运算符的结合来准确地表达一个检索语句,标引词的简单组配不能完全反映用户的实际需要;检索输出完全依赖于布尔提问与文献的匹配情况,很难控制输出量的大小结果不能按用户定义的重要性排序输出,用户只能从头到尾浏览输出结果才能知道哪些文献更适合自己的需要向量空间模型向量空间模型(VectorSpaceModel,VSM)是康奈尔大学Salton等人上世纪70年代提出并倡导,原型系统SMART标引词独立性假设:标引词在文档中的出现是独立、互不影响的。查询和文档都可转化成标引词及其权重组成的向量向量之间通过距离计算得到查询和每个文档的相似度。向量表示文档Dj的向量可以表示为Dj(w1j,w2j,⋯,wnj),其中n是系统中的标引词数目,wij代表了标引词i在文档Dj中的权重。查询Q的向量可以表示为Q(w1q,w2q,⋯,wnq),wiq代表了标引词i在查询Q中的权重

信息检索模型 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数23
  • 收藏数0 收藏
  • 顶次数0
  • 上传人253214894
  • 文件大小303 KB
  • 时间2018-09-15