西南交通大学硕士研究生学位论文第
摘要
互联网已经成为一个巨大的海量信息空间,人们在互联网上搜索信息主要利用百度
等通用搜索引擎,这类搜索引擎功能已经十分强大,基本可以满足用户的需求,但是当
用户搜索一些面向主题的信息时,这类搜索引擎往往显得力不从心。垂直搜索引擎的出
现,正是为了解决此类问题。
本文首先介绍了垂直搜索引擎的特点及工作原理,然后详细分析了开源网络爬虫
的系统结构。在此基础上,提出了设计特定的解析器,解析特定网站,以及扩展
的链接处理器,抓取特定链接,来实现定制抓取的目的;然后通过消除.
对个别处理器的影响,以及引入哈希算法,实现了高效、多线程抓取的目的。
本文采用作为全文检索引擎,首先深入剖析了的系统结构,并详细
阐述了的倒排索引技术和索引结构,然后通过分析原有排序算法,得知
其只考虑网页内容本身,不能反映出网页的重要性的不足,通过引入基于链接分析的
算法,改进了原有排序算法,排序结果更加符合用户预期。
本文在上述研究的基础上,根据汽车爱好者查询汽车信息的一般要求,建立了一个
面向汽车主题的垂直搜索引擎,设计了各个子系统,并实现了改进的爬虫和排序算法。
最后,本文在建立的垂直搜索引擎系统上,首先通过查询实验,验证了垂直搜索引
擎相对通用搜索引擎的直观优势,然后通过对改进前后的爬虫抓取网页速度对比,以及
对改进后爬虫在不同线程数、不同运行时间的条件下抓取网页速度的分析,验证了改进
后的爬虫性能有了较明显的提高,最后通过对比排序算法改进前后的排序结果,验证了
改进后的排序算法在符合用户预期查询结果方面,得到了较好的改善。
关键词:垂直搜索引擎、网络爬虫、、
西南交通大学硕士研究生学位论文第¨页
甈
’琲痶
甌
, ,
.
,
甋
籺.
甋吐
,缸
, .
瑆琒
,
,
’
’
瑃
甀琣
琤,
瓼畉
.
,
瓵,
琲
研
’
: , ,
西南交通大学硕士研究生学位论文第
第滦髀
研究背景
万维网侨蛐缘耐缧畔⑾低常谧罱改昀铮琖
得到了长足的发展,不但成为企业必不可少的组成部分,而且早已走进千家万户。根据
中国互联网络信息中一月日发布的《中国互联网络发展状况统计
报告》【,网民规模居世界第
一位,较年底年增长万人,.
亿人,较年增长万,┐逋窆婺4锏
万,%。年网络应用使用率排名前三甲分别是
网络音乐%缧挛.,搜索引擎%
随着网络覆盖范围的不断扩大,畔⒈ㄐ缘脑龀ぃチM丫晌R桓鼍薮
的海量信息空间。搜索引擎为人们在具有海量信息的互联网上查找信息资源提供了方便。
但是,随着信息多元化的发生和用户对搜索引擎提出的个性需求,面向所有用户的通用
搜索引擎【考壕荒苈闾囟ㄓ没У母钊搿⒖焖佟⒓笆钡牟檠枨蟆俣鹊
通用搜索引擎,虽然能够帮助人们从海量的网络信息海洋中找到许多有用的信息,但这
些信息往往是涉及各行各业,杂糅在一起。很多时候还需要在搜索出来的结果页面上不
断地翻页,反复绞尽脑汁变换关键词才能找到想要的信息,这给人们搜索、查询信息带
来很大的不便【。用户迫切需要一个数据分类细致、准确、全面、更新及时的专业的搜
索引擎来获取专业资源信息。
针对某一领域、某一特定人群或某一特定需求建立的搜索引擎处于酝酿之中,即垂
直搜索引擎,这样一来,垂直主题的搜索引擎以其高度的目标化和专业化在各类搜索引
擎中占据了一系席之地,比如象股票、天气、新闻等类的搜索引擎,具有很高的针对性,
用户对查询结果的满意度较高。垂直搜索引擎有着极大的发展空间。据赛迪网的“国内
搜索引擎市场调查报告”显示,%的网民认为将来非常可能或可能使用垂直搜索引擎
【俊
搜索引擎的发展历史
了解搜索引擎的发展历史‘,对于把握搜索引擎的技术发展趋势很有帮助。按照搜
索引擎对网页索引技术的不同,搜索引擎系统可以分为四代搜索引擎‘縨。
代搜索引擎
第阉饕媸悄柯际椒掷嗨阉饕妫硐低呈瓿鱿值腨搜索引擎。
早期阶段的搜索引擎收录的网页资源总量较少,爬虫技术尚不成熟,它是依靠专家人工
西南交通大学硕士研究生学位论文第
宣鹖
精选出网络目录中的网页,将信息进行系统地归类,利用传统的信息分类方式来组织信
息,用户按类别查找信息。目录式分类搜索引擎由于网络目录中的网页是专家人工精选
得来,故有较高的查准率,但查全率较低,搜索范围较窄,检索时间也较长。这一代存
在的
【硕士论文】面向汽车主题的垂直搜索引擎研究与实现 来自淘豆网www.taodocs.com转载请标明出处.