智能垂直搜索引擎的研究与设计
重庆大学硕士学位论文
学生姓名:黄胜根
指导教师:陈蜀宇 教 授
专 业:计算机系统结构
学科门类:工 学
重庆大学计算机学院
二 O 一 O 年四月
The Research and Design on Intelligent
Vertical Search Engine
A Thesis Submitted to Chongqing University
in Partial Fulfillment of the Requirement for the
Degree of Master of Engineering
By
Huang Shenggen
Supervised by Prof. Chen Shuyu
Major: Computer System Architecture
College of Computer Science of
Chongqing University, Chongqing, China
April, 2010
摘 要
随着 Internet 的快速发展,Web 上的信息与资源日益膨胀。面对海量的信息资
源,如何更快更好的获取需要的资源成为人们日益关注的问题。通用搜索引擎返
回的结果页面中含有大量的“噪声”页面,需要人为的去挑选自己所关注的主题。垂
直搜索引擎的出现,为人们提供了更快,更专业,更精准的网络资源的检索服务。
垂直搜索引擎是以构筑某一专题领域或学科领域的因特网信息资源库为目标,
智能地在互联网上搜集符合设定专题或满足学科需要的信息资源,它只针对某一
特定主题,能够提供更集中、更专业的搜索服务。在对垂直搜索引擎的关键技术
进行研究的基础上,本文研究并设计了垂直搜索引擎的主题爬行模块、索引模块
和检索模块,并最终实现了一个垂直搜索引擎原型系统。主要工作如下:
①针对当前垂直搜索引擎面临的一个亟需解决的“主题漂移”问题,本文提出了
一种改进型的主题爬行模型。主要包括基于反馈的主题知识库、主题判定模型和
链接分析模型。通过不断提炼和反馈主题网页数据库中的主题关键词,丰富和完
善主题知识库,使主题知识库具有一定的学****和自适应能力;考虑 HTML 不同标
签的权值,采用改进的向量空间模型算法判定网页的主题相似度,提高主题判定
的有效性和准确性;基于 Shark 算法思想,通过将 HTML 文档解析为 DOM 树形
结构,同时设置链接上下文阈值,提出一种基于链接上下文的链接主题相似度
DOM 判定模型,从而更好的来判断 URL 的主题相似度,指导主题爬行的方向。
②在研究全文检索基本原理和倒排索引组织结构的基础上,综合字
智能垂直搜索引擎的研究与设计 来自淘豆网www.taodocs.com转载请标明出处.