下载此文档

第八章索引数据库与搜索引擎-课件（PPT演示稿）.ppt

文档分类：IT计算机 | 页数：约24页举报非法文档有奖

1/ 24

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/ 24 下载此文档

文档列表 文档介绍

8 8 搜索引擎搜索引擎网络搜索引擎的诞生与发展网络搜索引擎的诞生与发展? : ? :?第一个成功的搜索引擎是 Web Crawler ,它由华盛顿大学于 1994 年4月推出。随之而来的是一大批网络搜索引擎如雨后春笋般地涌现: Lycos 、 Infoseek 、 Open Text 、 Alta Vista 、 Excite 相继诞生为网络信息检索立下汗马功劳。目前,国内外著名的搜索引擎很多: Yahoo, Google , Fast Search, Northern Light 和 Sohu ,百度, 天网,指南针等都是众多搜索引擎的代表。?搜索引擎的分类?从搜索层次上分为两类: ?常规搜索引擎和元搜索引擎?从信息媒介分: ?图像搜索引擎、视频搜索引擎、网页搜索引擎?从信息源的广度: ?综合办搜索引擎、专业搜索引擎?网页制作方式和处理方式: ? WEB 目录式、全文数据库式、 WEB 结构分析型?搜索引擎的发展趋势: ?个性化?智能化?整合化?垂直化?移动化?开放式? 搜索引擎的系统结构搜索引擎的系统结构?建立搜索引擎是将无序的网络信息资源进行有序化组织的有效方法。一个搜索引擎一般由搜索器( Spider ) , 索引器( Indexer ), 索引数据库( Index Database ),检索器( Searcher ), 和用户接口( User Interface )等五个部分组成。? 搜索器?是从因特网上采集信息的程序,也称之网络机器人。功能是在网上漫游,不断从网上采集并及时传回相关信息。?搜索器搜集信息的主要采集策略: ?网页选取策略: ?1、从网址集开始,逐步扩大到整个互联网。?2、从国家、或地区、或域名划分开始展开?3、从网站类别划分,对一类网络穷尽搜索?重复爬取策略:制定搜的时间,不用时时搜。?友好性策略:设定搜的页面范围,不用全面搜。?并行爬取策略:协调不同的搜索程序。?由于互联网上无数的网站页面,搜索引擎蜘蛛无法将所有的页面都下载保存到服务器。因此,许多搜索引擎的网络蜘蛛只是抓取那些重要的网页,而在抓取的时候评价重要性主要的依据是某个网页的链接广泛度(及外部链接的数量与质量)。?在抓取网页的时候, 搜索引擎蜘蛛一般有两种策略:广度优先和深度优先?广度优先是指搜索引擎蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让搜索引擎蜘蛛并行处理, 提高其抓取速度。深度优先是指搜索引擎蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是搜索引擎蜘蛛在设计的时候比较容易。?广度优先和深度优先?由于不可能抓取所有的网页,有些搜索引擎蜘蛛对一些不太重要的网站,设置了访问的层数。例如,在上图中, A为起始网页, 属于 0层, B、C、D、E、F属于第 1 层, G、 H属于第 2层, I属于第 3层。如果搜索引擎蜘蛛设置的访问层数为 2的话,网页 I是不会被访问到的。这也让有些网站上一部分网页能够在搜索引擎上搜索到,另外一部分不能被搜索到。对于网站设计者来说,扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。?权限: ?在访问网站网页的时候,经常会遇到加密数据和网页权限的问题,有些网页是需要会员权限才能访问。网站可以通过协议让搜索引擎蜘蛛不去抓取,但对于一些出售报告的网站,他们希望搜索引擎能搜索到他们的报告,但又不能完全免费的让搜索者查看,这样就需要给搜索引擎蜘蛛提供相应的用户名和密码。搜索引擎蜘蛛可以通过所给的权限对这些网页进行抓取。?搜索器信息处理流程: ?将搜索的各类信息的文档格式过滤,变成纯文本文件传回,然后交索引器抽取相应的信息建立索引数据库。

第八章索引数据库与搜索引擎-课件（PPT演示稿）来自淘豆网www.taodocs.com转载请标明出处.