1/45
文档分类:IT计算机

信息检索模型PPT学习教案.pptx


下载后只包含 1 个 PPTX 格式的文档,里面的视频和音频不保证可以播放,查看文件列表

特别说明:文档预览什么样,下载就是什么样。

下载所得到的文件列表
信息检索模型PPT学习教案.pptx
文档介绍:
会计学
1
信息检索模型
Filtering(过滤: 用户需求不变)
Documents Stream
User 1
Profile
User 2
Profile
Docs Filtered
for User 2
Docs for
User 1
IR的两种形式: Ad Hoc and Filtering
第1页/共45页
相关概念
停用词(stop word),指文档中出现的连词,介词,冠词等并无太大意义的词。例如在英文中常用的停用词有the,a, it等;在中文中常见的有“是”,“的”,“地”等。
索引词(标引词,关键祠):可以用于指代文档内容的预选词语,一般为名词或名词词组.
词干提取(英文中)
countries => country,interesting => interest
组合词: 北京大学
中文分词(word segmentation),或称切词,主要在中文信息处理中使用,即把一句话分成一个词的序列。如,“网络与分布式系统实验室”,分词为“网络/ 与/ 分布式/ 系统/ 实验室/”。
第2页/共45页
信息检索模型
第3页/共45页
信息检索模型的概述
第4页/共45页
信息检索模型
信息检索模型(IR model),依照用户查询,对文档集合进行相关排序的一组前提假设和算法。IR模型可形式地表示为一个四元组
< D, Q, F, R(qi,dj) >
其中D是一个文档集合,Q是一个查询集合,F是一个对文档和查询建模的框架,R(qi,dj) 是一个排序函数,它给查询qi和文档dj之间的相关度赋予一个排序值
第5页/共45页
文档逻辑视图
D是一个文档集合,通常由文档逻辑视图来表示。文档逻辑视图可以是一组索引词或关键词。也可以用n-gram方式表示。既可以自动提取,也可以是由人主观指定。(从全文到一组标引词)
第6页/共45页
信息检索模型
Q是一个查询集合,用户任务的表达,由查询需求的逻辑视图来表示。
F是一个框架,用以构建文档,查询以及它们之间关系的模型
R(qi,dj) 是一个排序函数,它给查询qi和文档 dj 之间的相关度赋予一个排序值
即: IR模型由上述四个要素组成
< D, Q, F, R(qi,dj) >
第7页/共45页
信息检索模型的分类
三类: 基于内容的信息检索模型,结构化模型,浏览型检索模型.
基于内容的信息检索模型有
集合论模型:布尔模型、模糊集合模型、扩展布尔模型
代数模型: 向量空间模型、广义向量空间模型、潜在语义标引模型、神经网络模型
概率模型: 经典概率论模型、推理网络模型、置信(信念)网络模型
第8页/共45页
非重叠链表模型
邻近结点模型
结构化模型
检索:
特别检索
过滤
浏览
用户任务
经典模型
布尔模型
向量模型
概率模型
集合论模型
模糊集合论模型
可扩展布尔模型
概率模型
推理网络模型
信任度网络模型
代数模型
广义向量模型
潜语义标引模型
神经网络模型
浏览
扁平式模型
结构导向模型
超文本模型
信息检索模型的分类
第9页/共45页
内容来自淘豆网www.taodocs.com转载请标明出处.
相关文档
非法内容举报中心
文档信息
  • 页数45
  • 收藏数0 收藏
  • 顶次数0
  • 上传人wz_198613
  • 文件大小329 KB
  • 时间2021-06-13