下载此文档

基于Lucene的AEP垂直搜索引擎的研究与实现.pdf


文档分类:IT计算机 | 页数:约47页 举报非法文档有奖
1/47
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/47 下载此文档
文档列表 文档介绍
华 中 科 技 大 学 硕 士 学 位 论 文
摘 要
随着阿里软件电子商务平台上软件的增多,单纯的依靠目录式的方法来寻找需要
的软件已经不能满足用户的需求,也不能提升用户的体验度,开发搜索引擎势在必
行。本文在开源工具包 的基础上,开发了一个能够深度搜索软件详细信息
的垂直搜索引擎,力争应用到电子商务平台上。
本文的主要工作有:分析包括信息检索的模型等搜索引擎的相关理论;介绍搜索
引擎的相关技术,包括网络爬虫 Heritrix 和 DWR 的原理和应用;扩展 Heritrix 并抓
取 AEP 平台上的软件信息;将 DWR 技术应用于平台的搜索模块,能够大大节省系
统资源;使用 Htmlparser 处理抓取到的文档,将 html 页面持久化为包含软件所有有
用信息的文档;分析 Lucene 的开源框架、搜索引擎的工作原理,对它的索引构建、
搜索模块和过滤排序等有了深入的了解,并在此基础上开发了垂直搜索引擎的相应
模块;使用 Spring+Hibernate+MySql 构建 AEP 垂直搜索引擎的搜索模块,并使用最
大匹配法进行分词处理。
总之,本文不仅对 AEP 搜索引擎进行了实现,还在实现中尽量使用主流的技术,
对用到的各种相关工具进行了较为深入的研究,对用到的分词算法和排序算法进行
了研究和实现。
本文的研究成果可以广泛应用于各种网站和 Web 应用系统的搜索,开发者可以
根据需要制定符合用户****惯和要求的搜索。

关键词: 垂直搜索引擎 Heritrix DWR HtmlParser
I
华 中 科 技 大 学 硕 士 学 位 论 文
Abstract
With the increase of software on the Alisoft Economic PlatForm(AEP),finding the
necessary software simply rely on directory-style method is unable to meet the needs of
users, also can not enhance the Customer Experience Index(CEI). A search engine must
been developed in the near future. A vertical search engine which can get software details
is established based on the open-source tool kits . This can be applied to
practical application.
The major works in this thesis are as follows: Analyze search engine theory including
the model of information retrieval; introduce the related technology of search engine,
including the theory and application of Heritrix and DWR; extend the spider Heritrix and
crawl information on AEP; DWR is applied to the search module of AEP search engine,
which can save the system resource to a large extent; During the design and
implementation, Htmlparser is used to deal with the document. It transforms html page to
txt document that includes all

基于Lucene的AEP垂直搜索引擎的研究与实现 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数47
  • 收藏数0 收藏
  • 顶次数0
  • 上传人aena45
  • 文件大小2.94 MB
  • 时间2021-08-19