下载此文档

基于分布式的农业信息检索系统的设计与实现.doc


文档分类:IT计算机 | 页数:约5页 举报非法文档有奖
1/5
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/5 下载此文档
文档列表 文档介绍
基于分布式的农业信息检索系统的设计与实现
摘要:垂直信息检索是针对某一行业的专业检索技术,为用户提供高相关度信息检索服务。本文通过对分布式系统hadoop、搜索引擎、分布式数据库、倒排索引等技术的研究,开发设计了分布式农业信息检索系统,为用户提供专业的农业信息检索服务。系统主要包括分布式平台模块,分布式网络采集器模块,分布式检索系统等模块。
本文采集自网络,本站发布的论文均是优质论文,版权和著作权归原作者所有。
关键词:分布式平台;网络爬虫;分布式检索
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2017)01-0237-02
随着信息技术的飞速发展,互联网数据资源呈爆炸式增长,互联网数据的快速增长虽然满足了我们日益增长的信息需求,但对信息检索技术也提出了挑战,如何在大规模的数据集中快速检索出用户需要的有价值信息成为当前研究的热点。全文检索针对范围广,返回检索结果往往涉及各个方面知识,而用户真正关心领域的知识可能不多或者排在了检索结果后面,这给用户从检索结果中挑选自己需要的结果带来了一定的困难,而垂直检索只是针对某一领域的专业检索,检索范围只针对该领域,返回结果不多,但都是用户关心领域的结果,和传统全文搜索引擎相比,垂直搜索引擎更能满足用户信息检索需求。
1 系统总体设计及结构
分布式农业搜索引擎首先要解决单机环境下数据采集效率低、存储难以扩充等问题,分步式系统是解决这些问题的完美方案,本系统采用Hadoop的HDFS作为分布式搜索引擎底层文件系统,解决了分布式存储和检索问题,使用nutch作为数据采集器,负责网络数据的采集,使用Solr作为检索器,本系统主要包括信息采集模块、倒排索引模块、信息检索模块、HDFS系统等四大部分组成,系统结构图如图1。
2 分布式农业信息采集子系统
分布式农业信息采集子系统主要负责从互联网抓取指定站点的农业信息,该模块维护有一张农业种子网站列表,目前在该列表中有3000个农业网站,该模块采用分布式采集技术,,,,采用分布式架构不但大大提高了数据采集效率,而且使系统具有高伸缩性,当数据采集节点不够时可方便向集群中添加新的采集节点。数据采集模块是搜索引擎设计的基础,该模块为搜索引擎提供源源不断的数据源,分布式数据采集系统功能模块图如图2所示。
网络爬虫从种子列表开始,逐级解析网页中出现的url链接,本系统采取广度优先算法进行网页抓取,直到网络爬虫采集到系统设定级数时才停止采集,数据采集采用增量更新原则,确保采集过的网页没有发生变化时不再重新采集,提高采集效率降低磁盘冗余。数据采集流程如图3所示。
采集模块从URL种子列表开始,首先读取完整的的url地址信息,检验url有效性,删除无效url地址,将有效url地址注入CrawDb库中,注入CrawDb库后,Generate模块从该库中提取出所有url并按指定规则进行过滤,之后生成FetchList待采集列表,并将此列表写进Segments目录中;根据Fetchlist列表,Fetch模块按广度优先算法依次抓取网页信息并保存在本地的crawl-fetch目录下;根据采集到的网页数据,Parse模块对数据进行解

基于分布式的农业信息检索系统的设计与实现 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数5
  • 收藏数0 收藏
  • 顶次数0
  • 上传人w8888u
  • 文件大小28 KB
  • 时间2017-11-05