下载此文档

Google搜索引擎原理.doc.doc

文档分类：IT计算机 | 页数：约7页举报非法文档有奖

1/7

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/7 下载此文档

文档列表 文档介绍

Google 搜索引擎原理这篇文章中, 我们介绍了 google , 它是一个大型的搜索引擎(of a large-scale search engine) 的原型,搜索引擎在超文本中应用广泛。 Google 的设计能够高效地抓网页并建立索引,它的查询结果比其它现有系统都高明。这个原型的全文和超连接的数据库至少包含 24'000'00 0 个网页。我们可以从 / 下载。设计搜索引擎是一项富有挑战性的工作。搜索引擎为上亿个网页建立索引,其中包含大量迥然不同的词汇。而且每天要回答成千上万个查询。在网络中, 尽管大型搜索引擎非常重要, 但是学术界却很少研究它。此外由于技术的快速发展和网页的大量增加, 现在建立一个搜索引擎和三年前完全不同。本文详细介绍了我们的大型搜索引擎,据我们所知,在公开发表的论文中,这是第一篇描述地如此详细。除了把传统数据搜索技术应用到如此大量级网页中所遇到的问题, 还有许多新的技术挑战,包括应用超文本中的附加信息改进搜索结果。本文将解决这个问题,描述如何运用超文本中的附加信息,建立一个大型实用系统。任何人都可以在网上随意发布信息, 如何有效地处理这些无组织的超文本集合, 也是本文要关注的问题。关键词 World Wide Web ,搜索引擎,信息检索, PageRank, Google 1 绪论 Web 给信息检索带来了新的挑战。 Web 上的信息量快速增长, 同时不断有毫无经验的新用户来体验 Web 这门艺术。人们喜欢用超级链接来网上冲浪,通常都以象 Yahoo 这样重要的网页或搜索引擎开始。大家认为 List( 目录) 有效地包含了大家感兴趣的主题,但是它具有主观性, 建立和维护的代价高, 升级慢, 不能包括所有深奥的主题。基于关键词的自动搜索引擎通常返回太多的低质量的匹配。使问题更遭的是, 一些广告为了赢得人们的关注想方设法误导自动搜索引擎。我们建立了一个大型搜索引擎解决了现有系统中的很多问题。应用超文本结构,大大提高了查询质量。我们的系统命名为 google ,取名自 googol 的通俗拼法, 即 10的 100 次方,这和我们的目标建立一个大型搜索引擎不谋而合。网络搜索引擎—升级换代(scaling up) : 1994-2000 搜索引擎技术不得不快速升(scaldramatically) 跟上成倍增长的 web 数量。 1994 年, 第一个 Web 搜索引擎, World Wide Web Worm(WWWW) 可以检索到 110 , 000 个网页和 Web 的文件。到 1994 年 11月, 顶级的搜索引擎声称可以检索到 2‘ 000'000(WebCrawler) 至 100 ‘ 000'000 个网络文件( 来自 Search Engine Watch) 。可以预见到 2000 年, 可检索到的网页将超过 1‘ 000'000 ‘ 000 。同时搜索引擎的访问量也会以惊人的速度增长。在 1997 年的三四月份, World Wide Web Worm 平均每天收到 1500 个查询。在 1997 年 11月, Altavista 声称它每天要处理大约 20'000'000 个查询。随着网络用户的增长. 到 2000 年,自动搜索引擎每天将处理上亿个

Google搜索引擎原理.doc 来自淘豆网www.taodocs.com转载请标明出处.