下载此文档

搜索引擎系统中网页消重的研究与实现.pdf


文档分类:IT计算机 | 页数:约67页 举报非法文档有奖
1/67
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/67 下载此文档
文档列表 文档介绍
摘 要
随着计算机硬件软件和互联网技术的飞速发展,网络上的各种信息急剧增长,已经
成为人类有史以来信息资源数量最多、信息资源种类最全、信息资源规模最大的一个综
合信息资源库。然而,用户在互联网上查找需要信息的时候,只知道搜索的关键词,并
不知道具体的 URL,因此就需要借助搜索引擎帮助用户查找需要的信息。
搜索引擎可以方便用户从互联网上查找信息,节约用户时间,受到大家普遍欢迎。
互联网上出现很多功能强大的搜索引擎,针对汉语的 Baidu 和针对多种语言的 Google
等。然而,有些网站因为商业利益,为了提高其网站的点击率,大量转载别的文章。好
的文章也会在博客和论坛之间转载。而且出现热门事件和大众感兴趣的焦点话题后,会
有很多网站竟相报道和转载,使得用户从搜索引擎返回的结果会有很多链接不同但内容
相同,降低了用户体验。用户不得不在大批相同的结果集中寻找自己需要的信息,而且
重复网页的存在也增加了索引数据库的存储容量。
去除重复的网页是提高搜索引擎实用性和效率的一个途径。本文首先在基于 HTML
标签的最大正文块算法基础上实现了网页主题内容的提取,并在此基础上,提出了基于
关键词和特征码的页面去重算法,并开发了实验系统,对该算法进行了验证,通过对实
验结果的分析讨论证明了算法的有效性。
本文的主要工作有以下几点:
:分析了搜索引擎运行原理与关键技术,从文本的相似检测到网页相似
检测领域中几个经典的去重算法。
,需要先提取出去除导航、广告、版权等网页
噪声的网页主题内容,在基于 HTML 标签的最大正文块算法基础上,综合考虑各种类型
的网页,设计算法实现了网页主题内容提取。
:在提取出的网页主题内容基础上,综合考虑了三种经典的网页去重算
法:基于特征码,特征句和 KCC 算法,借鉴其优势,提出了基于关键词和特征码的网页
去重算法。该算法简单高效,可以有效识别转载过程中有微小改动的网页,提高了网页
去重的准确性。
:在开源框架 lucene 基础上实现了一个简单的单机版搜索引擎系统,
I
将基于关键词和特征码算法内嵌到去重模块。该系统可以根据需要抓取网页、对网页进
行去重处理、对去重后的网页建立索引并进行搜索,根据用户查询关键词返回相关结果。
:将本文去重算法内嵌到搜索引擎系统中,对抓取的 900 个含重复网页
的数据集进行去重处理,并分析实验结果,证明改进算法的有效性。

关键词:搜索引擎,网页消重,网页去噪,最大正文块
II
ABSTRACT

With the computer hardware and software and the Internet technology rapid development,network
kinds of information rapid growth,already become one of human history Information resources most
quantity、information resources types most complete、most information resources scale of comprehensive
information resource ,when users search needed information on the Internet,only know search
keyword, do not know the specific URL,hence need for using the search engine to help users find need
imformation.
Search engineer can convenient users search imfomation from the Inte

搜索引擎系统中网页消重的研究与实现 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数67
  • 收藏数0 收藏
  • 顶次数0
  • 上传人zhufutaobao
  • 文件大小2.73 MB
  • 时间2021-12-04