垂直搜索引擎spider技术及研究和应用.pdf


文档分类:IT计算机 | 页数:约107页 举报非法文档有奖
1/107
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/107
文档列表 文档介绍
中山大学
硕士学位论文
垂直搜索引擎Spider技术的研究和应用
姓名:周赟
申请学位级别:硕士
专业:软件工程
指导教师:李长森
20070608
摘要互联网中的资源极其丰富,但是如何有效的获取却是一件困难的事情。搜索引擎是解决这个问题的最好方法。随着搜索技术的发展,现在垂直搜索引擎已经闯进人们的视线。对垂直搜索技术的研究旨在为人们提供更有力的信息获取工具,以应对信息爆炸带来的严重挑战。与通用搜索不同,垂直搜索能够提供更加直观更加精确的结果,满足了相当一部分用户的需求,极大的推动了搜索引擎市本文首先回顾了垂直搜索引擎研究的历史,接着详细介绍和分析了的系统构架和技术性能,深入研究探讨了当前的主流关键技术,包括擎爬虫进行了较详细的对比分析。在此基础上,以作者参与的中国电信集团大型垂直搜索引擎系统开发项目为背景,本文提出了一个垂直搜索引擎爬虫的设计构架模型,详细讲述了实现这个模型的各个步骤和技术细节,包括从最开始的解析、趁娲淼焦丶性的模式匹配模板、结构化信息抽取以及多线程运行等的设计思路和实现方法。由此模型构架的系统相对于其它成熟系统的优势在适用面广,并不局限于单一领域;极具人性化的页面采集向导;信息抓取准确率高;应用可靠性高。此模型的最大创新之处在于构建了一种新的数据采集模式——特征自学****模式,该模式结合了手工模板和自动语义分析模式两方面的特点,有效解决了准确性与效率的矛通商业搜索引擎项目中,并且通过了商业应用级的功能和性能测试,取得了不错论文最后总结了研究的意义和中间遇到的问题及对策,讨论了今后该技术的场的细分和发展。信息抽取,分装器生成,网页排序,归纳学****等,并对当前具有代表性的搜索引盾。接着论文介绍了如何成功的将以上大部分设计理念和方法应用到了号码百事的效果,为进一步的商业应用打下了基础。论文题目专业硕士生指导教师垂直搜索引擎技术的研究莆痏软件撼周赞李长森副教授
关键词:搜索引擎;垂直搜索;网络蜘蛛;网页排序;信息商业应用途径和发展方向。
,:,甆.。’甌甎甋琣...,琖,,.,,瑆
疭,,,,.琱,.甌珽甌瑃猯瑆瑆.
第引言上篇今天,越来越多的人的生活已经离不开,同时越来越多的信息也不由自主的被吸附了上来,它不断成长,其内容不断丰富,整个网络逐渐堆积成了现在这样一个前所未有的超大型信息库。作为一个信息平台在人们的同常生活和工作中发挥着越来越重要的作用,人们越来越多地通过的资料简直如同大海捞针,以至于迷失在信息的海洋中不知所措,出现了我们所而出现的技术。搜索引擎是一个信息处理系统,它以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的,一般包括信息搜集、信息整理和用户查询三部分。从用户的角度来看,它就是一个帮助人们进行信息检索的工具。面对浩瀚的网络资源,如今搜索引擎为所有网上冲浪的用户提供了一个入口,毫不夸张的说,所有的用户都可以从搜索出发到达自己想去的网上任何一个地方。因此它也成为除了电子邮件以外最多人使用的网上服务。搜索引擎技术伴随着姆⒄故且俗⒛康摹K孀潘阉骶玫尼绕穑嗣强J荚郊庸刈⑷各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为学者,会把有代表性的搜索引擎作为研究本人对搜索引擎的关注也有一段时间了,从最开始的使用方法,到后来的获取信息。在互联网发展初期,网站相对较少,网页数量亦较少,因而信息查找比较容易。然而伴随互联网爆炸性的发展,普通网络用户想找到所需说的”信息丰富,知识贫乏”的奇怪现象。搜索引擎正是为了解决这个”迷航”问题对象⋯⋯中山人学坝貉宦凼垂直搜索挈际醯难芯亢晚镉
搜索原理、搜索性能。最近更是有幸加入到了一个搜索引擎的研发项目中,有机会接触到它完整的概念和技术的细节。经过几个月的学****和应用,逐步加深了对它的认识,有了一些自己的见解和看法,因此在这里介绍给大家。本文分为上下两部分,上篇主要是对搜索引擎特别是垂直搜索技术的研究与分析,下篇则主要是介绍基于研究的成果,设计与实现一个垂直搜索并最终应用到实际工程中的过程。不过由于自身水平非常有限,其中肯定有很多不成熟和不讵确的地方,希望能够得到各位老师和同学们的指正。中山人学倾貉宦垡垂直搜索州擎’技术的研究和戍用
第滤阉饕婧痛怪彼阉搜索引擎发展回眸现代意义上的搜索引擎的祖先,是年由蒙特利尔大学学生刮闯鱿郑缰形募浠故窍当频繁的,而且由于大量的文件散布在各个分散的骰校檠鹄捶浅2想到了开发一个可以以文件名查找文件的系统,于是便有工作原理与现在的搜索引擎已经很接近,它依靠脚本程序自动搜索网上的文件,然后对有关信息进行索引,供使用者以一定的表达式查询

垂直搜索引擎spider技术及研究和应用 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数107
  • 收藏数0 收藏
  • 顶次数0
  • 上传人1006108867
  • 文件大小0 KB
  • 时间2015-12-05