下载此文档

信息检索模型.ppt

文档分类：IT计算机 | 页数：约46页举报非法文档有奖

1/46

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/46 下载此文档

文档列表 文档介绍

信息检索
信息检索(information retrieval,IR),将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程。
发展的几个阶段
手工检索(早期,情报检索)
穿孔卡片检索(1950s)
计算机检索(面向主题,1960s)
联机检索(1970s,1980s)
Web检索(1990s)
Ad hoc retrieval (特别检索: 文档集合保持不变)
Collection
“Fixed Size”
Q2
Q3
Q1
Q4
Q5
IR的两种形式: Ad Hoc and Filtering
Filtering(过滤: 用户需求不变)
Documents Stream
User 1
Profile
User 2
Profile
Docs Filtered
for User 2
Docs for
User 1
IR的两种形式: Ad Hoc and Filtering
相关概念
停用词(stop word),指文档中出现的连词,介词,冠词等并无太大意义的词。例如在英文中常用的停用词有the,a, it等;在中文中常见的有“是”,“的”,“地”等。
索引词(标引词,关键祠):可以用于指代文档内容的预选词语,一般为名词或名词词组.
词干提取(英文中)
countries => country,interesting => interest
组合词: 北京大学
中文分词(word segmentation),或称切词,主要在中文信息处理中使用,即把一句话分成一个词的序列。如,“网络与分布式系统实验室”,分词为“网络/ 与/ 分布式/ 系统/ 实验室/”。
信息检索模型
信息检索模型的概述
信息检索模型
信息检索模型(IR model),依照用户查询,对文档集合进行相关排序的一组前提假设和算法。IR模型可形式地表示为一个四元组
< D, Q, F, R(qi,dj) >
其中D是一个文档集合,Q是一个查询集合,F是一个对文档和查询建模的框架,R(qi,dj) 是一个排序函数,它给查询qi和文档dj之间的相关度赋予一个排序值
文档逻辑视图
D是一个文档集合,通常由文档逻辑视图来表示。文档逻辑视图可以是一组索引词或关键词。也可以用n-gram方式表示。既可以自动提取,也可以是由人主观指定。(从全文到一组标引词)
信息检索模型
Q是一个查询集合,用户任务的表达,由查询需求的逻辑视图来表示。
F是一个框架,用以构建文档,查询以及它们之间关系的模型
R(qi,dj) 是一个排序函数,它给查询qi和文档 dj 之间的相关度赋予一个排序值
即: IR模型由上述四个要素组成
< D, Q, F, R(qi,dj) >
信息检索模型的分类
三类: 基于内容的信息检索模型,结构化模型,浏览型检索模型.
基于内容的信息检索模型有
集合论模型:布尔模型、模糊集合模型、扩展布尔模型
代数模型: 向量空间模型、广义向量空间模型、潜在语义标引模型、神经网络模型
概率模型: 经典概率论模型、推理网络模型、置信(信念)网络模型

信息检索模型来自淘豆网www.taodocs.com转载请标明出处.