下载此文档

面向技术信息领域垂直搜索引擎的设计与实现.pdf


文档分类:IT计算机 | 页数:约59页 举报非法文档有奖
1/59
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/59 下载此文档
文档列表 文档介绍
天津大学
硕士学位论文
面向技术信息领域垂直搜索引擎的设计与实现
姓名:陈宏晓
申请学位级别:硕士
专业:计算机应用技术
指导教师:何丕廉
20070501
中文摘要关键词:随着网络信息资源呈几何级数增长,使用搜索引擎准确、快速的查找所需信息也变得越来越困难。主要原因有两个,一是传统的搜索引擎很难将所有的网络资源全都覆盖,做到面面俱到;二是查询结果通常都是成千上万条,真正有用的少量信息隐藏其中,让用户难以发现。垂直搜索引擎的应运而生,成为搜索引擎发展史上的一块里程碑。本文旨在研究垂直搜索引擎基本原理和架构,并实现一个面向技术信息领域的垂直搜索引擎,包括用于垂直搜索的网络爬行器技术,基于超链接的半结构化网页的挖掘,倒排索引及全文检索的实现等。主要分为四大方面的工作:烂元搜索程序的实现,用于采集领域相关的网站网址;怪彼阉饕媾佬衅鞯纳计和实现。该爬行器和通用爬行器不同,首先它是领域相关的,只爬行领域相关的网页。另外,通过对超链接的分析,该爬行器选择爬行具有一定规范结构的网页,并进行自动分类,便于后续步骤的处理;车墓思敖峁够畔⒌某槿将爬行器所抓取的网页进行进一步的过滤,按字段提取其有效信息,将所有这些信息以问酱娲⒃。寻找高效的数据结构建立倒排索引,以缩短索引建立时间和查询所需时间,系统支持各检索词之间的与或非等基本逻辑关系的组合查询以满足用户的高级检索需求,实现了实时反馈机制以使用户更快速的找到所需信息。技术信息所涵盖范围甚广,涉及到各个行业,有着很大的用户需求。本课题所开发的垂直搜索引擎将为用户提供全面而确切的相关信息,帮助用户不断迎接新挑战,抢占发展先机,做出正确决策。爬行器搜索引擎垂直搜索反馈机制
甌甌篊琣琒.—..甶,瓼,,...瑃—.疭瓼,,,.琣.,.,琒’
导师签名:至蕊学位论文作者签名:偬苏岘学位论文作者签名:侮亥%年拢日签字日期:年翵独创性声明学位论文版权使用授权书或撰写过的研究成果,也不包含为获得墨鲞盘堂或其他教育机构的学位或证。.特授权拳鲞盘鲎可以将学位论文的全部或部分内容编入有关数据库进行检签字日期:年易月日本学位论文作者完全了解:基鲞蠢堂有关保留、使用学位论文的规定。本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中签字日期:索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。C艿难宦畚脑诮饷芎笫视帽臼谌ㄋ得作了明确的说明并表示了谢意。
第一章绪论搜索引擎概述十八次中国互联网络发展统计报告【坑谥汲觯泄裰杏%的人使用搜索引搜索引擎的发展随着计算机技术和互联网技术的飞速发展,网络上的信息量也急剧增加,现在已经成为了人类有史以来资源数量最多,种类最全,规模最大的一个综合信息库。其信息来源丰富,分布广泛,更新频率快,%的网页平均生命周期大约为天”】。那么,如何在互联网这个浩瀚的信息海洋中及时、准确的找到所需要的信息阉饕姹闶浅械U飧鋈挝竦闹匾9ぞ摺>軨年鹿ú嫉牡擎,这个数字已经超过使用电子邮件的人数,使搜索引擎成为网民最常使用的网络服务。另有调查显示【,仅年路菝拦裨鏊阉饕嫱局凶共进行了约亿次搜索。很难给搜索引擎下一个明确的定义,一般认为,搜索引擎是一种用于帮助互联网用户查询信息的搜索工具,它以一定的策略在互联网上搜集信息,对信息进行处理、存储,为其建立相应索引,并为用户提供检索服务,从而达到信息导航的目的。早在鱿种埃チM媳阋丫嬖诹诵矶喙┤嗣枪蚕淼男畔⒆试戳恕这些资源以学术内容及研究性软件居多,它们分布在各个可以匿名访问的站点上,那时还没有,文件通常以纯文本或二进制的方式存储在各站点的本地硬盘上。为了便于人们在分散的试粗醒罢宜璧亩鳎幽么舐蠹尔大学鶤于年发明了。的工作原理与现在的搜索引擎已经颇为接近,它依靠程序自动获取各个点上的文件信息,包括这些资源的文件名、文件长度、创建时间以及所处目录等,然后对这些信息建立索引,供使用者以一定的方式查询。截止到年,上约有多个服务器,覆盖了遍布在个衿髦械多万个文件。用户可以使用或的客户端程序在低场低场低澈蚆系统中访问服务器以寻找文件。年拢固垢4笱矫┦可兰H搜
致远和共同创办了K孀欧梦柿亢褪章汲唇邮脑龀ぃ琘目录开始支持简单的数据库搜索。因为当时氖菔鞘止な淙氲模圆能真正被归为搜索引擎,事实上只是一个可搜索的目录,然而查找资源效率明显提高,使得搜索的概念深入人心,这是运阉饕娣⒄沟闹匾9毕住V叫褂肁、峁┧阉饕娣瘢钡浇昀床开发自己的搜索引擎系统。现代意义上的阉饕孀钤绯鱿衷月。当时卡耐基梅隆大学腗獼耐缗佬衅鞒

面向技术信息领域垂直搜索引擎的设计与实现 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数59
  • 收藏数0 收藏
  • 顶次数0
  • 上传人durian
  • 文件大小0 KB
  • 时间2014-02-13