1/71
文档分类:IT计算机

基于Nutch的学校信息垂直搜索引擎的研究与实现.pdf


下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

特别说明:文档预览什么样,下载就是什么样。

下载所得到的文件列表
基于Nutch的学校信息垂直搜索引擎的研究与实现.pdf
文档介绍:
中国优秀硕士学位论文全文数据库 2011年 第S1期 信息科技辑
Chinese Master's Theses Full-text Database 2011,No.S1 Information Science and Technology I138-1846-1
基于 Nutch 的学校信息垂直搜索引擎的研究与实现

王可
学位授予单位: 华东师范大学; 学科专业: 计算机应用技术

摘 要

在信息高速发展的今天,海量的信息资源、良莠不齐的信息内容和商业通用搜索引擎的竞价排名,给快速
精确查找所需信息造成了一定困难和干扰。而市场上目前还没有专门针对教育类和公益类信息的检索工具,
为了方便学校相关信息查找,构建一个针对学校信息需求的垂直搜索引擎是很有必要的。
本文所讨论的搜索引擎主要是针对以教育类网站,媒体类门户网站作为检索的垂直搜索引擎,可以更为
精确地获取学校信息和相关事件、人物信息,并可以满足用户对信息实时性和搜索精度的要求。
本文以 Nutch 为框架,在其基础上根据学校信息检索的需求,构建开发了学校信息检索垂直搜索引擎。
包含:信息的爬取,索引的建立,评分体系和结果的返回设定等各个方面。它在实现高质量检索效果基础上,
可以使运作成本尽可能小,而且构建快速,使用方便。
本文首先介绍了搜索引擎的相关背景知识和一些基本概念,并按照搜索引擎工作流程依次介绍了各个
功能模块。
然后,阐述了学校信息搜索引擎的工作原理、工作流程和主要设计过程。其中重点讲解了 Nutch 爬虫程
序的工作原理;Lucene 索引的建立过程,文本分析器的作用;文本检索系统的基本原理;中文分词技术;
PageRank 排序原理等。
最后介绍了对于重点难点问题的解决办法,并结合实验的数据和结果,对本搜索引擎进行了分析。

关键词:垂直搜索引擎;;Lucene;;Nutch

中图分类号:TP391.3

Abstract

With the rapid development of Information Society, masses of information resources, both good and bad
information content and bid ranking in general commercial search engines makes it difficult to find required
information quickly and accurately. And there is no specific educational and commonweal information searching
tools. I
内容来自淘豆网www.taodocs.com转载请标明出处.
相关文档
非法内容举报中心
文档信息
  • 页数71
  • 收藏数0 收藏
  • 顶次数0
  • 上传人陈潇睡不醒
  • 文件大小19.05 MB
  • 时间2021-11-08