下载此文档

基于lucene的垂直搜索引擎的设计与实现.pdf


文档分类:IT计算机 | 页数:约70页 举报非法文档有奖
1/70
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/70 下载此文档
文档列表 文档介绍
中山大学硕士学位论文
基于 Lucene 的垂直搜索引擎的设计与实现
The design and implementation of vertical search engine based
on Lucene
学位申请人: 周硕
指导教师: 印鉴
专业名称: 软件工程
答辩委员会主席(签名):
答辩委员会委员(签名):
二零一五年五月十日
论文原创性声明
本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独
立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论
文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文
的研究作出重要贡献的个人和集体,均已在文中以明确方式标明。本
人完全意识到本声明的法律结果由本人承担。
学位论文作者签名:
日 期:
基于 Lucene 的垂直搜索引擎的设计与实现 摘 要
论文题目:基于 Lucene 的垂直搜索引擎的设计与实现
专 业:软件工程
硕 士 生:周硕
指导教师:印鉴教授
摘 要
随着现代社会进入互联网时代,信息高速增长。而传统的搜索引擎公司提供
的商业搜索往往是基于广度的,很难直接有效地得到用户需要的信息,因此垂直
搜索引擎应运而生,其主要是面对特定领域定向采集信息,对这些信息进行加工
后再以用户需要的形式快速地返回给用户。
在智能手机市场爆发的时代,市面上并没有合适的基于手机产品的垂直搜索
引擎。面对这种需求,本文设计并开发了针对智能手机的基于 Lucene 的垂直搜
索引擎。文中首先介绍了通用搜索引擎的组成和工作原理,特别是垂直搜索中涉
及的关键技术如主题网络爬虫,网页信息抽取技术和索引技术,还探讨了 Lucene
的分词器的架构和工作原理,然后重点研究了中文分词这一关键技术,包括中文
分词的难点和常用分词算法。最后采用机械分词法,基于自建手机领域词典,采
用了基于 Trie 树结构词典的改进的正向最大长度匹配的分词方法,实现了简易的
中文分词器,经过效果对比,其在手机领域的分词效果比其他的开源分词器好,
最后将该分词器应用于 Lucene 分析器中,搭建了手机垂直搜索引擎的核心部件。
本文对手机垂直搜索引擎进行了需求分析后和架构设计,划分了功能模块和
设计了数据库,根据选定的开源框架搭建了开发环境,最后实现了功能模块的详
细设计和编码,包括扩展 Heritrix ,改进现有的爬行策略来抓取特定网页信息;
使用 Htmlparser API 分析抓取到的 html 文档,将页面持久化为产品信息文档;
使用 Spring+Hibernate+MySql 架构构建手机垂直搜索引擎的查询模块,使用
DWR 技术实现平台的查询子系统的异步请求,分词处理采用了基于手机词典的
Analyzer。通过查询实验,验证了本系统对比通用搜索引擎的查准率优势。
关键词:垂直搜索,中文分词,主题爬虫,爬行策略,Lucene
I
The design and implementation of vertical search engine based on Lucene Abstract
Title: The design and implementation of vertical search engine based on Lucene
Major: Software engineering
Name: Shuo Zhou
Supervisor: Yin
A

基于lucene的垂直搜索引擎的设计与实现 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数70
  • 收藏数0 收藏
  • 顶次数0
  • 上传人iris028
  • 文件大小2.62 MB
  • 时间2021-11-17