下载此文档

第一章全文检索技术.docx


文档分类:IT计算机 | 页数:约6页 举报非法文档有奖
1/6
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/6 下载此文档
文档列表 文档介绍
第一章全文检索技术.docx,每条报文的数据量较小,大概2000-3000字节左右,但是总体报文的条数较多。这些报文信息属于非结构化数据,H前查询这些海量非结构化数据的速度较慢,而通过全文检索技术能高效地管理这些非结构化数据。全文检索是指计算机索引程序通过扫描文章屮的每一个词,对每一个词建立一个索引,指明该词在文章屮出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。,索引创建和搜索索引。索引创建:将数据提取信息,创建索引的过程。搜索索引:得到用户的查询请求,搜索创建的索引,然后返冋结果的过程。1) 有一系列被索引文件2) 被索引文件经过语法分析和语言处理形成一系列词3) 经过索引创建形成词典和反向索引表4) 通过索引存储将索引写入硬盘■搜索过程:a) 用户输入查询语句。b) 对查询语句经过语法分析和语言分析得到一系列词c) 通过语法分析得到-•个查询树d) 通过索引存储将索引读入到内存e) 利用查询树搜索索引,从而得到每个词(Term)的文档链表,对文档链表进行交,差,并得到结果文档D将搜索到的结果文档对查询的相关性进行排序g),即正排表和倒排表。正排表是以文档的ID为关键词,表屮记录项记录文档屮每个词的位置信息,查找时扫描表屮每个文档屮词的信息直到找出所有包含查询关键词的报文。这种组织方法建立索引比较方便,结构简单且易于维护,但是在查询的时候需对所有的报文进行扫描以确保没有遗漏,这样就使得检索时问大犬延长,检索效率低下。所以通常都采用另一种词表组织方法:倒排表。倒排表按词或字为关键词(字)进行索引,表屮关键词对应的记录表项用来记录所有出现这个词的文档,一个表项就是一个词表段,记录该文档的ID和该在该文档中出现的位置信息。倒排表结构如下图所示。关键词1 ►文档1 ►文档2文档n关键词2 ! »文档1 ►文档2L 、文档n关键词n图倒排序结构由于每个词对应的文数量在动态变化,所以倒排表的建立和维护都较为复杂,但是在检索的时候由可以一次得到查询关键词所对应的所有文档,所以效率较高。・WbrdID<nDocsP文档开始位置pWbrdlD^nDocsP文档开始位置QWbrdID-nDocsP文档开始位置23—级索引VDocIDJ出现次数"首次出现位置2DocIDa出现次数心首次出现位置卩二级索引」DocIDu出现次数,首次出现位置PDocIDp出现次数门首次出现位置卩DocIDJ出现次数,首次出现位置心DocID"出现次数门首次出现位置Uhit®hit<hit®hiWM2hit,hit"Jut"hit"hit"文档数、第-•个文图索引表结构1、一级索引:一级索引共有三个数据项构成,。其^WordlD是词典屮词条的ID,文档数是指这个词总共在多少个文档屮出现,文档开始位置是一•个文件指针指向二级索引屮出现当前词的文档集屮的第一个文档存储位置。通过这个指向可以直接定位到二级索引文件读取位置,然后读取nDocs个记录即可。2、二级索引:二级索引有三个数据项组成,DocID、出现次数、

第一章全文检索技术 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数6
  • 收藏数0 收藏
  • 顶次数0
  • 上传人sssmppp
  • 文件大小145 KB
  • 时间2020-09-28
最近更新