1/68
文档分类:IT计算机

基于lucene的产品比价搜索系统的研究与设计.pdf


下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

特别说明:文档预览什么样,下载就是什么样。

下载所得到的文件列表
基于lucene的产品比价搜索系统的研究与设计.pdf
文档介绍:
论文题目:基于 Lucene 的产品比比价搜索系统统的研究与设计
学科专业:计算机应用技术
学位申请人:张俊
指导教师:李鲁群群

中文摘要

互联网网近年来呈现蓬勃发展趋势,网网上的信息量每日呈爆炸式的增长。信息
海量增长的同时,百度,谷歌等通用搜索引擎已经无法满足人们对特定领域的搜
索需求求。为此,针对特定领域的垂直搜索技术,已经成为了国内外研究的热点,
垂直搜索引擎由此而诞生。
国内外已有许多成功投入商用的垂直搜索网网站。这些网网站的运营成功,又反
过来促进垂直搜索技术的研究进步。比比如国内的以旅游为搜索主题的“去哪儿
网网”,以及新浪,腾讯等门户网网站中的以数码为主题的网网页分栏里,都是用户访
问较多的网网站。但是,当用户在这些网网站中输入了错别字时,却反馈不了用户想
要的搜索结结果。为此,如何正确理解用户的输入意图,也成为了垂直搜索引擎研
究的重点内容之一。本文研究并实现一个垂直搜索引擎,基于 Lucene 的产品比比
价搜索系统统。具体的研究内容有:
(1)分析了垂直搜索引擎特征及其关键技术,明确了论文的研究主题。
(2)详细分析了实现产品比比价搜索系统统的各项关键技术,对网网络络爬虫,页
面解析技术,以及对实现索引和搜索两个功能的 Lucene 的开源 API 进行了分析。
(3)对中文搜索中的难点内容,中文分词技术进行了研究,介绍了基于最
大正向匹配和基于统统计的两种常用的中文分词算法,并针对最大正向匹配算法的
不足,提出了一种改进的方法,该方法保留了传统统正向匹配算法的优点,结结合了
词频统统计。并通过三组实验来验证改进后算法,在分词精度上得到了提高。
(4)对拼写检查技术进行研究,将计算最长公共子串(LCS )的方法添加到
比比价搜索系统统的后台检索模块中,即当用户输入错别字时,系统统能够进行纠错,
并返回用户想要搜索的内容。使得系统统能够正确理解用户的输入意图,具有一定
的容错功能。
本文对构建垂直搜索引擎的各个模块进行详细的分析,使用开源的网网络络爬虫
技术来抓取指定的网网页,并使用页面解析技术,将抓取的网网页解析成文本格式。
用 Lucene 提供的 API 对这些文本进行索引和搜索,并使用本文提出的改进中文
分词代替 Lucene 中自带的中文分词器,以及将 LCS 技术添加到系统统的后台检索
模块中。系统统运行后结结果表明,在正确理解用户输入意图上,得到了明显的改善。
本文的研究工作,对于促进国内垂直搜索引擎的技术研究,将会有一定的意义。

关键词关键词::::垂直搜索 ;Lucene; 中文分词 ;LCS; 网网络络爬虫 ;页面解析
Abstract

In recent years ,the Internet showed a booming development trend,the amount
of online information was explosive growth day by day.At the same time,with the
massive growth of imformation, Baidu Google and other general search engines
have been unable to meet the needs of people search on specific areas.For this
reason ,the search technology for the specific domain, has become the focus of
research at home and abroad, so the vertical search engine was born.The success of
commercially search sites at home and
内容来自淘豆网www.taodocs.com转载请标明出处.
相关文档
非法内容举报中心
文档信息
  • 页数68
  • 收藏数0 收藏
  • 顶次数0
  • 上传人莫欺少年穷
  • 文件大小2.59 MB
  • 时间2021-09-23