下载此文档

03信息检索模型.ppt.ppt


文档分类:IT计算机 | 页数:约46页 举报非法文档有奖
1/46
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/46 下载此文档
文档列表 文档介绍
信息检索?信息检索( information retrieval , IR ), 将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程。?发展的几个阶段?手工检索(早期,情报检索) ?穿孔卡片检索(1950s) ?计算机检索(面向主题,1960s) ?联机检索( 1970s,1980s) ?Web 检索(1990s) Ad hoc retrieval (特别检索: 文档集合保持不变) Collection “ Fixed Size ” Q2 Q3 Q1 Q4 Q5 IR的两种形式: Ad Hoc and Filtering Filtering( 过滤: 用户需求不变) Documents Stream User 1 Profile User 2 Profile Docs Filtered for User 2 Docs for User 1 IR的两种形式: Ad Hoc and Filtering 相关概念?停用词( stop word ), 指文档中出现的连词,介词,冠词等并无太大意义的词。例如在英文中常用的停用词有 the , a, it 等; 在中文中常见的有“是”,“的”,“地”等。?索引词(标引词,关键祠) : 可以用于指代文档内容的预选词语,一般为名词或名词词组. ?词干提取(英文中) countries => country , interesting => interest ?组合词: 北京大学?中文分词( word segmentation ), 或称切词,主要在中文信息处理中使用,即把一句话分成一个词的序列。如, “网络与分布式系统实验室”,分词为“网络/ 与/ 分布式/ 系统/ 实验室/”。信息检索模型信息检索模型的概述信息检索模型?信息检索模型( IR model ), 依照用户查询, 对文档集合进行相关排序的一组前提假设和算法。 IR模型可形式地表示为一个四元组< D, Q, F, R(q i,d j ) > 其中 D 是一个文档集合, Q 是一个查询集合,F 是一个对文档和查询建模的框架, R(q i,d j ) 是一个排序函数,它给查询 q i和文档 d j 之间的相关度赋予一个排序值文档逻辑视图?D 是一个文档集合,通常由文档逻辑视图来表示。文档逻辑视图可以是一组索引词或关键词。也可以用 n-gram 方式表示。既可以自动提取,也可以是由人主观指定。(从全文到一组标引词) 信息检索模型?Q 是一个查询集合,用户任务的表达,由查询需求的逻辑视图来表示。?F 是一个框架, 用以构建文档, 查询以及它们之间关系的模型? R(q i,d j ) 是一个排序函数,它给查询 q i 和文档d j之间的相关度赋予一个排序值?即: IR模型由上述四个要素组成< D, Q, F, R(q i,d j ) > 信息检索模型的分类三类: 基于内容的信息检索模型, 结构化模型, ?集合论模型: 布尔模型、模糊集合模型、扩展布尔模型?代数模型: 向量空间模型、广义向量空间模型、潜在语义标引模型、神经网络模型?概率模型: 经典概率论模型、推理网络模型、置信(信念)网络模型

03信息检索模型.ppt 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息