下载此文档

基于Lucene搜索引擎的研究与改进.doc


文档分类:IT计算机 | 页数:约10页 举报非法文档有奖
1/10
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/10 下载此文档
文档列表 文档介绍
基于Lucene搜索引擎的研究与改进.doc基于Lucene搜索引擎的研究与改进
摘要
Lucene是目前已经儿年,最受欢迎的免费Java的全文检索库。首先, 本文分析了珠光体系结构、索引机制、搜索机制;其次,它研允排序技术和如何调整索引的性能;最后,文章提出丫新的检索排序算法。
关键字:索引;搜索;条款;因子;maxMergeDocs;满意程度;:新的算法
一、引言
Lucene是优秀的全文搜索引擎工具软件包和一个成熟的、免费的、开源的项目,在Java中实现。然而,它不是一个完整的全文搜索引擎,而是全文搜索引擎的体系结构。Lucene提供完整的搜索引擎,完整的索引引擎,部分文本分析引擎(两种西方语言:英语和德语)[1]。它是项0 Apache雅加达家庭成员。木文的结构如下:第二部分我们分析Lucene系统结构;第三部分研究Lucene 运行机制(索引和搜索);第四部分讨论如何调整索引的性能;第五部分我们对分类技术的研宄,提出新的检索排序算法。在第六部分我们进行有关的新算法的可行性分析;最后在第七部分得出结论。
二、LUCENE系统结构
作为一个优秀的全文搜索引擎,Lucene系统结构具有强烈的面向对象特征。首先,Lucene系统定义一个索引文档格式已无关平台:第二,该系统的核心部件R在抽象类,和混凝土平台实现设计用来抽象类实现;最后,它穿过层而向对象处理,实现一种低耦合,高效率,便于二次开发的搜索引擎系统。Lucene体系结构如图1所示:
Lucene査词器<
Lwenc分析器.
4-*
文件索*
索引,指针、
9
Lucene yjjp
Lucene 库一
索引核心,•
Lucene JtS*
基本的封装结构<■,
图1 Lucene索引结构
从图1,我们可以看到,Lucene系统由3个主要部分,即基本的封装结构、索引核心、外部接口组成。索引核心也是系统的关键所在。Lucene系统所有源代码都划分成7个模块(在Java包来表示),并且每包完成特定的功能。其核心类软件包是组织 Apache. Lucene. analysis, org. apache lucene. index, org. apache lucene. search。每个包的功能,如表 1:
c各包功能

功能

搜索界面
lucene. index
索引接口
org. apache, lucene. analysis
语言分析器
org. apache, lucene. queryParser
查询分析器
org. apache, lucene. document
文件存储器
org. apache, lucene. store
底层I/O存储结构
org. apache,
一些公共数据结构
三、LUCENE运行机制
Lucene主要包括两个功能:
•建立索引数据库和索引纯文木;
•根据用户的查询,搜索索引已经建立的数据库。

分度机构是Lucene系统的核心部分。似乎可以简单地完成此操作的过程屮哪些索引文档可能只能调用Lucene APT的几种方法。然而,它实际上隐藏巧妙而复杂的索引过程背后的简单过程。图2显示了索引进程:
图2

基于Lucene搜索引擎的研究与改进 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数10
  • 收藏数0 收藏
  • 顶次数0
  • 上传人小博士
  • 文件大小235 KB
  • 时间2018-12-03