下载此文档

信息检索模型.ppt


文档分类:IT计算机 | 页数:约23页 举报非法文档有奖
1/23
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/23 下载此文档
文档列表 文档介绍
信息检索模型
信息检索模型
信息检索模型(Information Retrieval Model)是指如何对查询和文档进行表示,然后对它们进行相似度计算的框架和方法。
本质上是对相关度建模。
信息检索模型是IR中的核心内容之一。
原始文档
相关度计算
文档表示
原始查询
查询表示
信息检索模型
用形式特征可以将信息检索模型表示为一个四元组的模型框架: IR = <D, Q, R(q,d)>。
D是文档表示
Q是查询表示
R(q ,d )是一个排序函数
相关概念
标引词(Index Term)
标引词是能代表文档内容的特征,可以是字、词、短语或者某种语义单元,关键词(key words) 可以看成标引词的一种。
文档表示成多个标引词的集合
标引词的权重(Weight)
􀁺不同标引词作用是不同的
通过权重加以区分
信息检索模型的分类
从所使用的数学方法上分:
基于集合论的IR模型(Set Theoretic models)
􀁺布尔模型
􀁺基于模糊集的模型
扩展布尔模型
基于代数论的IR模型(Algebraic models)
向量空间模型
潜性语义索引模型
神经网络模型
基于概率统计的IR模型(Probabilistic models)
回归模型
概率模型
语言模型建模IR模型
推理网络模型
信任度网络模型
布尔模型(Boolean Model)
布尔模型:查询和文档均表示为标引词(“是否存在”)
的布尔表达式,通常表示成D(t 1,t 2,⋯,t i)的形式。
布尔操作(关系) :与(AND) 或(OR) 非(NOT)
相似度计算:查询布尔表达式和所有文档的布尔表达式进行匹配,匹配成功的文档的得分为1,否则为0。
类似于传统数据库检索,是精确匹配
布尔模型的优点
简单、易理解、易实现
现代很多搜索引擎中仍然包含布尔模型的思想,如Google的高级检索
布尔模型的局限性
只能严格匹配,文献要么相关、要么不相关,并没有一个相关级别的概念,因此很难有好的检索效果
构造布尔逻辑式不容易,对于一般用户而言,很难用AND、OR、NOT运算符的结合来准确地表达一个检索语句,标引词的简单组配不能完全反映用户的实际需要;
检索输出完全依赖于布尔提问与文献的匹配情况,很难控制输出量的大小
结果不能按用户定义的重要性排序输出,用户只能从头到尾浏览输出结果才能知道哪些文献更适合自己的需要
向量空间模型
向量空间模型(Vector Space Model,VSM)是康奈尔大学Salton等人上世纪70年代提出并倡导,原型系统SMART
标引词独立性假设:标引词在文档中的出现是独立、互不影响的。
查询和文档都可转化成标引词及其权重组成的向量
向量之间通过距离计算得到查询和每个文档的相似度。
向量表示
文档Dj的向量可以表示为Dj(w1j, w2j ,⋯,wnj ) ,其中n是系统中的标引词数目,wij 代表了标引词i在文档Dj中的权重。
查询Q的向量可以表示为Q(w1q, w2q ,⋯,wnq ) ,wiq代表了标引词i在查询Q中的权重

信息检索模型 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数23
  • 收藏数0 收藏
  • 顶次数0
  • 上传人liangwei2005
  • 文件大小303 KB
  • 时间2018-07-18