下载此文档

《垂直搜索引擎技术的研究和应用》.pdf


文档分类:IT计算机 | 页数:约47页 举报非法文档有奖
1/47
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/47 下载此文档
文档列表 文档介绍
北京工业大学
硕士学位论文
垂直搜索引擎技术的研究和应用
姓名:邵温
申请学位级别:硕士
专业:计算机应用技术
指导教师:于书举
20090401
摘要互联网的信息量呈爆炸趋势增长,增强了人们对搜索技术的依赖性。搜索引擎是开启网络知识殿堂的钥匙,获取知识信息的工具。但随着网络技术的飞速发展,获取更加准确、更加详细、更加深层的专业信息,成为对搜索引擎提出的新要求。因此,面向主题的垂直搜索引擎系统应运而生。本文主要的研究工作分为两个部分:第一部分通过理论研究分析,揭示垂直搜索引擎的现实意义;第二部分通过对垂直搜索擎的核心技术进行剖析,结合对奥运信息的需求,设计并实现一个垂直搜索引擎的原型系统。主要内容为:晗附樯芰舜怪彼阉饕婕际醯难芯恳庖澹谕夥⒄瓜肿础⒒驹理。提出了目前搜索引擎所面临的问题以及解决问题的途径,即本文所研究的方向:垂直搜索引擎。通过和搜索引擎在信息服务和关键技术上的比较分析,指出怪彼阉饕娴墓丶侍庋芯浚氐懵凼龃怪彼阉饕嫔杓朴胧迪质的关键问题:信息采集技术,信息预处理技术等。够围绕设定主题进行聚焦检索的关键。对于网页的主题相关性判别,使用目前较为常用的向量空间模型进行判别。网络机器人在爬行时要不断地计算当前网页的主题相关度数值,并根据数值评价网页的主题相关度,因此,它可以有效地避开大量无关主题区域,搜索出特定主题领域内的相关网页。所以,垂直搜索引擎的准确率、召回率和效率都远胜于通用搜索引擎。哂写怪彼阉饕婀δ艿陌略诵畔⑾低车纳杓朴胧迪郑萸拔牡睦论分析和当前搜索引擎技术的发展现状,按照软件工程的方法,研究并实现奥运信息搜索引擎的原型系统。设计过程重点论述了系统主要功能模块和关键技术的关键词垂直搜索引擎;网络机器人;主题相关;奥运信息垂直搜索引擎的巨大优势。重点论述了垂直搜索引擎的基本原理和工作流程。作为主题网络蜘蛛搜索策略的核心部分,主题相关性判断算法是网络蜘蛛能实现。
琾,瓸,猵甋篢:甌:,琤篤.,甌猳.,.瓵琣.琫
北京丁业火学я篒宦畚.甌.::篛
日期:型签名:砰洫独创性声明关于论文使用授权的说明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。C艿穆畚脑诮饷芎笥ψ袷卮斯娑签名:导师签名:
第滦髀垂直搜索引擎的研究意义垂直搜索引擎的发展现状随着网络与通信技术的迅速发展,畔⒈ㄐ缘脑龀ぃチM丫晌一个巨大的海量信息空间。如何快速、准确、方便的从如此庞大的信息库中获取自己需要的信息,是互联网用户面临的一个重要问题。搜索引擎的出现,整合了众多网站信息,极快的查询起到了信息导航的作用,信息的价值得到众多商家的普遍认可,成为互联网中最有价值的领域。大家熟知的搜索引擎、百度、雅虎等都是搜索引擎的杰出代表,为互联网的发展做出了重要的贡献。谑拇位チM鞑橄允荆阉饕%的绝对优势成为用户从互联网上获得信息的主要方式,是互联网上使用程度仅次于电子邮箱的服务⋯。该中心年路⒉剂曛泄阉饕媸谐〉鞑楸ǜ妫ǜ显示搜索引擎用户对搜索引擎的依赖性很高,每次上网都要用到多次搜索的比例达到.ィ咏话胴。互联网的信息量呈爆炸趋势增长,几年前全球式搜索引擎收录的网页量只有几千万页,而现在已经达到几十亿页,数量增加带来的是搜索服务的品质下降,查询的结果集就是海量的,经常是几十万笔的资料,结果里存在大量的重复信息和垃圾信息,用户迅速地找到符合自身的信息越来越难,现在经常使用搜索引擎可以感觉到很难在短时间内准确的筛选出需要的内容,因此,如何对通用搜索引擎技术进行改进,使查询的结果集更加贴近用户的要求,成为搜索引擎行业近期的研究热点,这时垂直搜索应运而生。所谓垂直搜索,是针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务。其特点就是专、精、深,且具有行业色彩。它是与通用搜索引擎截然不同的引擎类型。垂直搜索引擎专注具体、深入的纵向服务,致力于某一特定领域内信息的全面和内容的深入,这个领域外的闲杂信息不收录。普通的网页搜索以综合搜索、横向搜索为主要特点,在满足搜索信息量大的同时却难以兼顾搜索的准确度与相关度的质量,很难满足追求精准的个性化、专专业搜索引擎,是搜索引擎的细分和延伸,是对网页库中的某类

《垂直搜索引擎技术的研究和应用》 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数47
  • 收藏数0 收藏
  • 顶次数0
  • 上传人yinjiong623147
  • 文件大小2.16 MB
  • 时间2021-06-16