下载此文档

网络搜索引擎技术的研究报告.doc


文档分类:IT计算机 | 页数:约27页 举报非法文档有奖
1/27
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/27 下载此文档
文档列表 文档介绍
-
. z
目录1
摘要2
Abstract3
第1 章绪论4
研究的背景与意义4
本文的构he collecting of the webpages on Internet, Then on thebasis of this, analyse the webpage that is obtained . Among them, weave in asocket, HTTP agreement, HTML language and introduction of thePagerank .
Key words Search engine Pagerank HTTP HTML
Server/client
III
-
. z
第1 章绪论
研究的背景与意义
随着因特网的迅猛开展、WEB 信息的增加,用户要在信息海洋里查找信息,就象大海捞针一样,搜索引擎技术恰好解决了这一难题〔它可以为用户提供信息检索效劳〕。目前,搜索引擎技术正成为计算机工业界和学术界争相研究、开发的对象。搜索引擎〔Search Engine〕是随着WEB 信息的迅速增加,从1995 年开场逐渐开展起来的技术。据发表在?科学?杂志1999 年7 月的文章?WEB 信息的可性?估计,全球目前的网页超过8 亿,有效数据超过9T,并且仍以每4 个月翻一番的速度增长。用户要在如此浩瀚的信息海洋里寻找信息,必然会"大海捞针"无功而返。搜索引擎正是为了解决这个"迷航"问题而出现的技术。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进展理解、提取、组织和处理,并为用户提供检索效劳,从而起到信息导航的目的。搜索引擎提供的导航效劳已经成为互联网上非常重要的网络效劳,搜索引擎站点也被美誉为"网络门户"。搜索引擎技术因而成为计
算机工业界和学术界争相研究、开发的对象。1993 年,Internet 上出现了最早的Web 浏览器Mosaic,次年Netscape推出了Navigator,浏览器的开展促使Web 得到迅速推广,同时也推动着搜索引擎的开展。1994 年初,Internet 上出现了包括Lycos 在内的第一批Web搜索引擎,同年还成立了!,后者成为了近年来最成功的商业目录。现在Internet 上已有数千个提供搜索效劳的站点,它们不仅要努力改良自己的效劳以便能在剧烈的竞争中生存下来,还要努力寻求新技术以便能适应Internet 的迅速扩*。
本文的构造
本文是以我在探索实现中的过程为线索来组织的,插入了必要的信息介绍。大体分三局部:搜索引擎技术简介、
-
. z
Linu* 下得网页获取及Web 相关技术、网页的分析。其中简单介绍了搜索引擎的分类、套接字编程、网页等级〔Pagerank〕等各种相关技术的介绍。
第2 章搜索引擎技术简介
搜索引擎的分类
尽管目前存在数量众多的搜索引擎,但根据它们所基于的技术原理,可以把它们分成三大主要类型:基于Robot 的搜索引擎、目录〔Directory,也叫做Catalog〕和Meta 搜索引擎。
基于Robot 的搜索引擎
这种搜索引擎的特点是利用一个称为Robot〔也叫做Spider、WebCrawler 或Web Wanderer〕的程序自动Web 站点,提取站点上的网页,并根据网页中的进一步提取其它网页,或转移到其它站点上。Robot 搜集的网页被参加到搜索引擎的数据库中,供用户查询使用。Internet 上最早出现的搜索引擎就是利用Robot 来建立数据库,"搜索引擎"这个词的原义也只是指这种狭义上的基于Robot 的搜索引擎。
基于Robot 的搜索引擎由三个主要局部构成:Robot、Inde* 和搜索软件。Robot 从一个事先制定好的URLs 列表出发,这个列表中的URLs 通常是从以往记录中提取出来的,特别是一些热门站点和"What's New"网页,从Usenet 等地方检索得到的URLs 也常被用作起始URLs,此外,很多搜索引擎还承受用户提交的URLs,这些URLs 也会被安排在列表中供Robot。Robot 了一个网页后,会对它进展分析,提取出新的URLs,将之
参加到列表中,如此递归地Web。
Robot 作为一个程序,可以用C、Perl、Java 等语言

网络搜索引擎技术的研究报告 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数27
  • 收藏数0 收藏
  • 顶次数0
  • 上传人2786321826
  • 文件大小91 KB
  • 时间2022-01-22