下载此文档

lecture3-tolerant-retrieval 第3讲 词典及容错式检索 现代信息检索导论 教材课程.ppt


文档分类:医学/心理学 | 页数:约121页 举报非法文档有奖
1/121
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/121 下载此文档
文档列表 文档介绍
Introduction to Information Retrieval
现代信息检索
中科院研究生院2011年秋季课程《现代信息检索》更新时间:
Modern Information Retrieval
授课人:王斌
./~wangbin
*改编自”An introduction to Information retrieval”网上公开的课件,地址 -book/
第3讲词典及容错式检索
Dictionary and tolerant retrieval
2011 /9/15
1
提纲
上一讲回顾
词典
通配查询
编辑距离
拼写校正
Soundex
2
提纲
上一讲回顾
词典
通配查询
编辑距离
拼写校正
Soundex
3
现代信息检索
上一讲内容
文档
词条/词项
基于跳表指针的合并
短语查询的处理(双词索引和位置索引)
4
现代信息检索
文档
索引的基本单位
与文件不是一回事,严格地说,一篇文档可能包含多个文件,也可能一个文件包含多篇文档
依赖于具体应用
句子级检索: 一个句子为一篇文档
段落级检索: 一段文本为一篇文档
……
5
8
词项归一化中的问题
词项实际上是一系列词条组成的等价类
如何定义等价类?
数字(3/20/91 vs. 20/3/91)
大小写问题
词干还原,Porter工具
形态分析: 屈折 vs. 派生
其他语言中词项归一化的问题
比英语中形态更复杂
芬兰语: 单个动词可能有12,000 个不同的形式different forms
重音符号、元音变音问题(umlauts,由于一个音被另一个音词化而导致的变化,尤其是元音的变化)
8
9
跳表指针
9
10
位置(信息)索引
在无位置信息索引中,每条倒排记录只是一个docID
在位置信息索引中,每条倒排记录是一个docID加上一个位置信息表
一个查询的例子: “to1 be2 or3 not4 to5 be6”
TO, 993427:
‹ 1: ‹7, 18, 33, 72, 86, 231›;
2: ‹1, 17, 74, 222, 255›;
4: ‹8, 16, 190, 429, 433›;
5: ‹363, 367›;
7: ‹13, 23, 191›; . . . ›
BE, 178239:
‹ 1: ‹17, 25›;
4: ‹17, 191, 291, 430, 434›;
5: ‹14, 19, 101›; . . . ›
第4篇文档能够与查询匹配!
10

lecture3-tolerant-retrieval 第3讲 词典及容错式检索 现代信息检索导论 教材课程 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数121
  • 收藏数0 收藏
  • 顶次数0
  • 上传人nnyoung
  • 文件大小2.06 MB
  • 时间2018-06-19