下载此文档

基于Nutch的农业垂直搜索引擎研究.doc


文档分类:IT计算机 | 页数:约12页 举报非法文档有奖
1/12
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/12 下载此文档
文档列表 文档介绍
基于Nutch的农业垂直搜索引擎研究.doc基于Nutch的农业垂直搜索引擎研究
摘要:采用基于中文词典的正向最大匹配中文分词方法的JE分词 改进Nutch中文分词,使其支持中文分词。最后,采用PAGERANK排 序算法改进Nutch原有的基于Lucene的页面排序算法。
目前,“专、精、深”的垂直搜索引擎、智能化语义化的搜索引擎 成为人们研究的热点。
在了解和分析Nutch工作原理的基础上对Nutch开源搜索引擎进行 扩展和修改来研发基于Nutch的农业垂直搜索引擎。
在基于Nutch的农业垂直搜索引擎研究的基础上结合项目背景需求, 设计并实现了该系统管理平台。
第一章,绪论部分。主要阐述了本论文研究的目的、意义及本文要 解决的问题、国内和国外的研究状况、核心研究内容以及本文章的组 织结构。
主要论述系统结构以及研发过程涉及到的关键技术,最后对其进行 测试和分析。
总结论文的主要工作和存在的缺陷之处,并对以后的研究工作进行 了展望。
本章阐述了本论文研究的目的及意义,论述了国内和国外的研究状 况,给出论文核心研究内容及文章的组织结构。
垂直搜索引擎是专门面向于一个特定行业、特定领域、特定人群而 产生的工具,因此,垂直搜索引擎也称为专业搜索引擎、专题搜索引 擎或是主题搜索引擎,是通用搜索引擎更细的划分和扩展(王文钧和 李巍2010;李晓明等2007)。
它不仅具备“专、精、深”的特点,而且在这一领域具有典型的领 域特色。
具体而言,垂直搜索引擎就是把Web信息资源中的某类学科信息以 定向分字段地形式抽取出所需的数据,即将非结构化的网页数据抽取 成一定的结构化的网页数据的过程,然后对数据进行去重、分类、分 词、索引等处理,最后再以查询的方式来达到用户的信息需求。
垂直搜索引擎和通用搜索引擎的产生其目的是相同的,都是帮助广 大用户搜索信息的相关工具,但其信息的服务形式有很大变化,垂直 搜索引擎更注重信息的“专、精、深”。
由图2-1可知,垂直搜索引擎的基本工作原理是:首先网络蜘蛛根 据初始URL采集互联网上的网页;其次对采集到的网页进行处理,通 过分析网页提取出网页中的内容和网页中存在的URL链接,并对网页 中的内容和网页中的URL链接进行过滤,把与主题相关的页面存入网 页数据库,同时把网页中的URL链接加入URL数据库,等待网络蜘蛛 进一步爬取;最后根据网页数据库建立索引,将该索引保存到索引库。 此外,用户通过用户接口进行检索请求,检索器根据用户输入的条件 到索引库进行检索,其结果被进行一定的有效组织后返回给检索用户
(周鹏等2009)。
因此,下面主要介绍网页库级的垂直搜索引擎研发过程中用到的主 要技术,其主要技术主要包括:信息采集技术、网页信息抽取技术、 信息处理技术、分词技术、索引技术等。
垂直搜索引擎的信息抽取是把非结构化的网页数据根据特定的需求 抽取成结构化网页数据,提供专业的查询服务,这也是垂直搜索引擎 与通用搜索引擎之间的最大不同之处,因此,衡量垂直搜索引擎好坏 的一个核心技术指标就是信息抽取技术。目前,信息抽取技术的方式
多种多样,主要有基于包装器的信息抽取方式、基于自然语言的抽取 方式、基于HTML网页结构的抽取方式(郭来德等2007)。
垂直搜索引擎的网页信息过滤技术决定着该搜索引擎的专业性,网 页信息过滤就是指通过分析网页内容及结构,保留与主题相关的网页, 而丢弃与主题不相关的网页。目前,主要的网页信息过滤技术有基于 布尔模型的网页信息过滤方法、基于VSM的网页信息过滤方法、基于 潜在语义模型的网页信息过滤方法等(罗德一 2007)。
VSM是被上世纪60年代的Salton等人提出用于表达特征的模型, SMART (文本检索系统)是它的典型应用。
中文分词即中文切词,是指将汉字序列分割成代表一定含义的词。
基于字符串匹配的机器中文分词算法、基于词频统计的中文分词算 法以及基于知识理解的中文分词算法(李东和张湘辉2006)。基于字 符串匹配的机器中文分词算法也称为词典中文分词算法、机械中文分 词算法,它是依据一定的方法把所要分词的汉字串同词典来完成词条 匹配,如果在该词典中能够发现该字符串,则表示切分出一个汉字串。
如正向、逆向、最长、最小最短等匹配算法,通常情况都是将以上 各种形式的分词方法相互组合使用。常用的几种相互组合的分词方法
主要是:正向最大、逆向最大、双向等匹配算法以及最少切分算法;
基于知识理解的中文分词方法是力求使计算机能够具备人类分析句 子的能力,从而能够识别出词。它主要由总控部分、句法语义子系统、 分词子系统这三部分构成,通过总控部分来调解语义子系统、分词子 系统进行歧义分词的判别。
目前,索引技术主要分为四类,分别是线性索引、倒排索引、静态 索引、动态索引。

基于Nutch的农业垂直搜索引擎研究 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数12
  • 收藏数0 收藏
  • 顶次数0
  • 上传人蓝天
  • 文件大小88 KB
  • 时间2021-07-03