下载此文档

基于Java的搜索引擎Nutch中文搜索技术研究.doc

文档分类：资格/认证考试 | 页数：约3页举报非法文档有奖

1/3

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/3 下载此文档

文档列表 文档介绍

基于Java的搜索引擎Nutch中文搜索技术研究.doc基于Java的搜索引擎Nutch中文搜索技术研究
摘要:Nutch是一个优秀的基于Java的开放源码搜索引擎,为了使它能够支持中文搜索,本文在分析了Nutch结构的基础上,采用词表分词技术和前向匹配分词算法对中文信息进行分词,脚本实现上下文相关文法中文分析模块,成功实现了Nutch中文搜索功能。
关键词:搜索引擎; 分词; 正规
Abstract: In order to enable Chinese search in Nutch, ation based on Chinese dictionary and foratching algorithm. Chinese analysis module is generated by script; that results in supporting Chinese search in Nutch.
Key entation; Regular Expression
1 前言
搜索引擎[1]是当今网络应用的核心问题,已经受到各企业和研究部门的广泛关注。Lucene和Nutch是针对国外英文系统环境的搜索引擎,技术的基础上,成功地实现了Lucene和Nucth的中文分析模块,使Lucene和Nucth能够实现中文信息检索。
2 Nutch分析
Lucene是开放源码的基于Java的全文检索引擎,其贡献者Doug Cutting是一位资深全文索引/检索专家。作为一个全文检索系统,在进行检索之前需要建立索引,索引的过程是先读取文章中的词语,然后一一存放在称为倒排索引文件的索引数据库(Index Database)中。索引数据库记录了词语出现的位置,频率等相关信息,以备后面读取。Nutch是Cutting创建的另一个Java开源项目,目的是提供全功能的搜索引擎,其底层借助了Lucene的部分功能,并且索引结构与Lucene兼容。
Lucene和Nutch并没有规定数据源的格式,而只提供了一个通用的结构(Document对象)来接受索引的输入,因此输入的数据源可以是数据库、L文档,只要能够设计相应的解析转换器将数据源构造成Docuement对象即可进行索引。对于大批量的数据索引,还可以通过调整IndexerergeFactor)来提高批量索引的效率。用户输入查询字符串(Query String),然后经过分析器的分析,就会产生一个Query对象。真正搜索时,使用IndexSearcher类的search 方法,它返回Hits对象。通过遍历Hits对象的所有文档(document),就可以找到所有被搜索到的文章(页面)。查询字符串的语法定义为:
Query ::= ( Clause )*
Clause ::= ["+", "-"] [<TERM> ":"] ( <TERM> | "(" Query ")")
中间的逻辑包括:and or + - ||等符号,而且还有"短语查询"和针对西文的前缀/模糊查询等。总的来说,这是其他很多搜索引擎都不具备的功能。通过修改QueryParser的语法生成脚本,还可以修改或扩展查询分析器的功能,使它更加适用于中文环境。所有的问题都通过一个额外抽象层来方便以后的扩展和重用,通过重新实现来达到自己的目的,而对其他模块而不需要。可以简单

基于Java的搜索引擎Nutch中文搜索技术研究来自淘豆网www.taodocs.com转载请标明出处.