下载此文档

基于Lucene技术垂直搜索引擎研究和实现.pdf


文档分类:IT计算机 | 页数:约70页 举报非法文档有奖
1/70
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/70 下载此文档
文档列表 文档介绍
摘要
随着 和 t 上的资源日趋丰富。为了帮助人们在浩如
烟海的互联网中获取有用的信息,基于 的各类信息检索服务应运而生并得到了迅速
发展。目前人们在互联网上搜索信息主要是通过 Google、百度等通用搜索引擎。一般情况
下,通用搜索引擎可以满足用户的需求。然而,当用户只想查询某一具体行业或某种主题
的相关信息时,这类搜索引擎就会显得有些力不从心。垂直搜索引擎的出现,正好满足了
这些特定的需求。
针对某一领域、某一特定人群或某一特定需求建立的搜索引擎称为垂直搜索引擎,它
已经逐渐成为人们获取专业网络信息的重要工具。Lucene 是一个用 Java 语言编写的全文索
引引擎工具包,它可以方便地嵌入到各种应用中,实现针对特定应用的垂直搜索功能。
网络爬虫是垂直搜索引擎的数据来源,它的性能直接影响了信息采集的数量与质量,
因此网络爬虫是搜索引擎的重要组成部分。Lucene 本身没有提供信息采集的功能,本论文
在介绍搜索引擎有关技术和开源网络爬虫 Heritrix 的基础上,通过对 Heritrix 进行扩展和改
进,实现了一个垂直搜索爬虫,满足了特定的信息采集需求。测试结果表明改进后的网络
爬虫的抓取效率较改进前有明显的提高。
本论文还针对 Lucene 在搜索结果排序算法方面的不足进行了改进。改进前的 Lucene
排序算法根据查询和包含关键字的文档来计算相关度得分,没有考虑网页在互联网中的重
要程度,还不能完全适应网页搜索。改进后的页面优先度排序算法在原有 Lucene 排序算法
的基础上,考虑了网页的重要程度这一因素,增加了网页的链接情况来计算网页得分。对
比分析的结果表明改进后的排序算法较好地反映了这个因素,把重要的网页排在了靠前的
位置。
在上述工作的基础上,论文最后设计和实现了一个垂直搜索引擎的原型系统,并提供
了系统实现所采用的技术方法和核心代码,为垂直搜索引擎的构建和应用提供了有益的借
鉴。


关键词:垂直搜索引擎;Lucene;Heritrix;排序算法







II
ABSTRACT
With the rapid development of and WWW, resources e more and
more order to obtain useful information on the vast for people, various types
of information retrieval services on came into being, and has been developed rapidly. At
present, people search information on through Google, Baidu and other general search
engine speaking, the general search engine can meet the demands of user.
However, when users just want to query the related information from a specific industry or in a
certain theme, this kind of search engine will be a little emergence of vertical
search engine meet those specific demands well.
Vertical search engine, it builds for a particular field and a particular group or a particular
need, it has gradually e the important tool to get the work information.
Lucene is the engine kit of full-text index, was writen by java, which can be easily embedded in a
variety of applications, and plish the function of vertical search which used in specific
application.
Web crawler is t

基于Lucene技术垂直搜索引擎研究和实现 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数70
  • 收藏数0 收藏
  • 顶次数0
  • 上传人2890135236
  • 文件大小0 KB
  • 时间2015-11-30