第2章信息检索模型
主讲:张春元(信息学院213室)
联系电话:**********
课程邮箱:haidair2009@
密码:ir2009
提纲
信息检索模型的定义和分类
布尔模型*
向量空间模型*
概率模型*
扩展布尔模型
统计语言模型
隐性语义索引模型
基于本体论的模型
海南大学信息学院张春元主讲 2009秋季-2-
信息检索模型的定义和分类
信息检索模型的定义
信息检索模型的分类
海南大学信息学院张春元主讲 2009秋季-3-
信息检索模型的定义
模型是采用数学工具,对现实世界某种事物或某种运动
的抽象描述。面对相同的输入,模型的输出应能够无限
地逼近现实世界的输出,能够透过现象看本质。
举例:
天气预测模型
人口增长模型
海南大学信息学院张春元主讲 2009秋季-4-
信息检索模型的定义
用户
信息源
信息查询
查询接口信息采集
用户反馈查询请求 Q 文档集 D
查询处理文档处理
查询结果Ψ查询请求逻辑视图 Q 文档逻辑视图集 D'
相关匹配文档组织
组织好的文档逻辑
D
视图集(索引库)
关键问题:
信息查询信息组织
1. 从什么样的视角去看待查询式和文档
2. 基于什么样的理论去看待查询式和文档的关系图 1-1 信息检索系统一般结构图
3. 如何计算查询式和文档之间的相似度
海南大学信息学院张春元主讲 2009秋季-5-
信息检索模型的定义
信息检索模型的一般定义
用一个四元组[D, Q, F, R(qi, dj)] 表示,其中:
D: 文档集的机内表示(词或字或短语或N元组)
Q: 用户需求的机内表示
F: D与Q之间的检索匹配框架(Frame)
R(qi, dj): 排序函数,计算qi 和 dj相关度
海南大学信息学院张春元主讲 2009秋季-6-
信息检索模型的分类
集合论
模糊集
扩展的布尔模型
信息检索模型
布尔
向量空间线性代数
概率扩展的向量空间
知识隐性语义索引
神经网络
人工智能
概率论与数理统计
基于本体论的模型语言模型
推理网络
信念网络
海南大学信息学院张春元主讲 2009秋季-7-
布尔模型(Boolean Model)
布尔模型的定义
布尔模型示例
布尔模型应用情况
布尔模型优缺点
海南大学信息学院张春元主讲 2009秋季-8-
布尔模型的定义
布尔模型的定义
信息检索一般模型[D, Q, F, R(qi, dj)] 解释为:
z 文档D表示为标引项的集合,各标引项权值采用二值{0,1}表示。
z 用户查询Q表示查询项的布尔组合,用“与、或、非”连接起来,并
用括弧指示优先次序. 为了便于计算,一般采用析取范式表示。
z 检索匹配框架F
¾ 一个文档当且仅当它能够满足布尔查询时,才将其检索出来。
¾ 检索策略基于二值判定标准。
z 排序函数R
z 根据匹配检索框架F判定文档dj和qi是否二值{0,1}相关。
海南大学信息学院张春元主讲 2009秋季-9-
布尔模型检索示例
例:文档集包含两个文档:
文档1:a b c f g h
文档2:a f b x y z
用户查询:文档中出现a或者b,但一定要出现z。
检索过程:
a) 将查询表示为布尔表达式 qabz= ()∨∧, 并转换成析取范
式 qDNF =∨∨(1,0,1) (0,1,1) (1,1,1)
b) 文档1和文档2的三元组对应值分别为(1,1,0)和(1,1,1)
c) 经过匹配,将文档2返回
海南大学信息学院张春元主讲 2009秋季-10-
信息检索-02信息检索模型 来自淘豆网www.taodocs.com转载请标明出处.