下载此文档

基于Lucene垂直搜索引擎的研究与实现.pdf


文档分类:IT计算机 | 页数:约71页 举报非法文档有奖
1/71
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/71 下载此文档
文档列表 文档介绍
论文题目:基于 Lucene 垂直搜索引擎的研究与实现
专 业:计算机应用技术
硕 士 生:徐 海 (签名)
指导教师:李军民 (签名)
摘 要
随着 Internet 和 WWW 的迅速发展,Internet 上的资源日趋丰富,人们也越来越多
地依赖网络进行学****和研究。为了帮助人们在浩如烟海的网络中得到有用的信息,基于
Internet 的各类搜索引擎应运而生并得到了迅速发展。目前,人们在网络上搜索信息主
要利用百度,Google 等通用搜索引擎,这类搜索引擎功能已经十分强大,基本可以满足
用户的需求,但是当用户搜索一些专业信息时,这类搜索引擎往往显得力不从心。垂直
搜索引擎的出现,正是为了解决此类问题。
首先,本文论述了垂直搜索引擎的研究意义及体系结构,并深入研究了垂直搜索引
擎的核心技术,包括主题相关度的判断,中文分词技术,网页排名技术等。
其次,本文对 Lucene 开发包进行深入的学****研究,对比了其本身的中文分词方法
及 KTDictSeg 分词方法,采用对中文分词效果较好的 KTDictSeg 分词方法对所提取的内
容进行分词。
最后,本文设计并实现了威客任务信息垂直搜索引擎系统,包括主题蜘蛛模块,信
息提取模块,索引与检索模块。在主题蜘蛛模块采用 Shark Search 算法来对未处理的 URL
进行分析,提高了对主题信息采集的准确度;在信息提取模块,采用 HtmlParser 文档解
析方法对采集的页面进行信息提取;在索引与检索模块,针对 Lucene 中的得分算法没
有很好的体现网页在网站中的位置信息这一不足,设计了一种改进的解决方案,将文档
的基本得分与文档在网页中的位置信息以及文档本身的特点很好的结合起来,以提高对
搜索结果排序的准确度,由此增强了搜索的精确度。


关 键 词:垂直搜索引擎;主题蜘蛛;Lucene;信息检索;中文分词
研究类型:应用研究
Subject :The Research and Design on Vertical Search Engine Based on
Lucene
Specialty : Computer Application Technology
Name : Xu Hai (Signature)
Instructor : Li JunMin (Signature)
ABSTRACT
With the rapid development of Internet and WWW, resources on the Internet become
more and more abundant. And people are increasingly dependent on the Internet to study and
order to help people get useful information in a broad array of Internet information,
various Internet-based information retrieval services came into being and have been
developed rapidly. Currently, people search for information on the Internet primarily through
BaiDu, Google and other general sea

基于Lucene垂直搜索引擎的研究与实现 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数71
  • 收藏数0 收藏
  • 顶次数0
  • 上传人zhufutaobao
  • 文件大小1.52 MB
  • 时间2021-10-31