下载此文档

计算机网络毕业论文面向主题的搜索引擎的设计与实现.docx


文档分类:IT计算机 | 页数:约4页 举报非法文档有奖
1/4
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/4 下载此文档
文档列表 文档介绍
面向主题的搜索引擎的设计与实现论文关键词:主题搜索引擎自动分类特征值向量空间模型论文摘要:由于互联网的飞速发展,普通搜索引擎无法满足人们的需要;早期的搜索引擎把因特网中的资源服务器的地址收集起来,根据其提供的资源类型的不同而分到不同的目录,再一层层地进行分类。人们要找自己想要的信息可按他们的分类一层层进入,就能最后到达目的地,找到自己想要的信息;但是这只适用于因特网信息不多的时候,但是如果信息一旦多起来,查找的时候所花费的时间就会变长;因此,在一个web文档数上亿的互联网中,需要更快速地找到所需要的信息,就需要建立一个高效的信息搜索系统。该课题了现有面向主题的搜索引擎的技术特点,实现一个能满足基本需求的主题搜索引擎;在该课题中叙述了面向主题搜索引擎的重要性、实现方法、实现过程;主要是web文档抓取、特征提取、web文档分类技术;特征值应具有明显的特征,以此提高搜索引擎质量;在实现自动web文档分类时采用向量空间模型计算web文档间的相似度。 1绪 论 ,是1990年由Montreal的McGillUniversity学生AlanEmtage、PeterDeutsch、BillWheelan发明的Archie(ArchieFAQ)。虽然当时WorldWideWeb还未出现,但网络中文档传输还是相当频繁的,由于大量的文档散布在各个分散的FTP主机中,查询起来很不便,因此AlanEmtage等想到了研发一个能够用文档名查找文档的系统,于是便有了Archie。Archie是第一个自动索引互连网上匿名FTP网站文档的程式,但他还不是真正的搜索引擎。Archie是个可搜索的FTP文档名列表,用户必须输入精确的文档名搜索,然后Archie会告诉用户哪一个FTP地址能够下载该文档。由于Archie深受欢迎,受其启发,putingServices大学于1993年研发了一个Gopher(GopherFAQ)搜索工具Veronica(VeronicaFAQ)。Jughead是后来另一个Gopher搜索工作. Robot(机器人)puterRobot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程式。由于专门用于检索信息的Robot程式象蜘蛛(spider)相同在网络间爬来爬去,因此,搜索引擎的Robot程式被称为spider(SpiderFAQ)程式。世界上第一个Spider程式,是MITMatthewGray的WorldwideWebWanderer,用于追踪互连网发展规模。刚开始他只用来互连网上的服务器数量,后来则发展为也能够捕获网址(URL)。和Wanderer相对应,1993年10月MartijnKoster创建了ALIWEB(MartijnKosterAnnoucestheAvailabilityofAliweb),他相当于Archie的HTTP版本。ALIWEB不使用网络搜寻Robot,假如网站主管们希望自己的web文档被ALIWEB收录,需要自己提交每一个web文档的简介索引信息,类似于后来大家熟知的Yahoo。随着互连网的迅速发展,使得检索任何新出现的web文档变得越来越困难,因此,在Wanderer基础上,一些编程者将传统的Spider程式工作原理作了些改进。其设想是,既然任何web文档都可能有连向其他网站的

计算机网络毕业论文面向主题的搜索引擎的设计与实现 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数4
  • 收藏数0 收藏
  • 顶次数0
  • 上传人gjh0927
  • 文件大小38 KB
  • 时间2020-07-10
最近更新