下载此文档

基于lucene的垂直搜索引擎的设计与实现.pdf


文档分类:IT计算机 | 页数:约58页 举报非法文档有奖
1/58
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/58 下载此文档
文档列表 文档介绍
工 程 硕 士 学 位 论 文



基于 Lucene 的垂直搜索引擎的设计与实现
The design and implementation of vertical search engine based on
Lucene
















作 者 姓 名: 罗钊
工 程 领 域 : 软件工程
学 号 : 0611086
校 内 导 师: 郑丽英
企 业 导 师: 李良林
完 成 日 期:

兰 州 交 通 大 学
Lanzhou Jiaotong University
兰州交通大学工程硕士学位论文
摘 要
随着互联网技术的飞速发展,网络信息资源的数量呈现出数量级的递增。传统的搜
索引擎由于不能获取即时更新的网络信息资源,在面对用户的即时性查询或者深度而专
业的搜索请求时,便显得力不从心。在这种情况下,面向特定领域的垂直搜索引擎便产
生了,相对于通用搜索引擎的查询不准确以及深度不够等局限性,垂直搜索引擎的产生
正是为了满足用户专业而有深度的搜索请求服务的。
垂直搜索引擎专注于特定的一个领域,比如房产、旅游、汽车、教育等。提供专一
化、有深度的信息检索服务。和通用搜索引擎相比,垂直搜索引擎的查询结果是和特定
行业或特定领域相关的,由于相关的信息量较少,能够及时更新,这样就保证了查询结
果的实时性和准确性。
本文首先介绍了垂直搜索引擎的研究背景和研究意义,以及垂直搜索引擎的发展现
状等。接着对垂直搜索引擎关键技术进行了介绍,主要包括网络爬虫的抓取过程和爬行
策略,网页的主题信息提取算法、网页排序算法。
接着对经典的网页排序算法进行了研究,包括 PageRank 算法,HITS 算法。本文是
在标准 PageRank 算法的基础上,添加了网页相似度判断的因子,以及表示网页新旧程
度的时间因子。通过对 PageRank 算法的改进,能够较好的改善标准算法中存在的主题
漂移以及查询结果偏重旧网页的问题,从而较好的改进了排序的结果。
然后对开源 Lucene 及其关键技术进行了详细阐述,主要包括 Lucene 的系统组成、
索引过程、评分机制及其检索过程。
最后,通过研究垂直搜索引擎的关键技术,分析并设计了垂直搜索引擎的结构和系
统实现框图,在 Lucene 与 Hertrix 的基础上开发了一个垂直搜索引擎。并且把前文改进
的 PageRank 算法应用到 Lucene 的评分机制中去,经过对系统的运行测试,验证了改进
后的 PageRank 算法具有较好的排序效果,达到了预期的效果。

关键词:主题爬虫;Lucene;PageRank;网页相似度;爬行算法
- I -
基于 Lucene 的垂直搜索引擎的设计与实现
Abstract
With the rapid development of Internet technology, the count of network information
resources got a rapid growth. Traditional search engines cannot obtain the real-time updated
information resources

基于lucene的垂直搜索引擎的设计与实现 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数58
  • 收藏数0 收藏
  • 顶次数0
  • 上传人zhufutaobao
  • 文件大小1.49 MB
  • 时间2021-11-28