下载此文档

第八章索引数据库与搜索引擎-课件(PPT演示稿).ppt


文档分类:IT计算机 | 页数:约24页 举报非法文档有奖
1/ 24
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/ 24 下载此文档
文档列表 文档介绍
8 8 搜索引擎搜索引擎 网络搜索引擎的诞生与发展网络搜索引擎的诞生与发展? : ? :?第一个成功的搜索引擎是 Web Crawler ,它由华盛顿大学于 1994 年4月推出。随之而来的是一大批网络搜索引擎如雨后春笋般地涌现: Lycos 、 Infoseek 、 Open Text 、 Alta Vista 、 Excite 相继诞生为网络信息检索立下汗马功劳。目前,国内外著名的搜索引擎很多: Yahoo, Google , Fast Search, Northern Light 和 Sohu ,百度, 天网,指南针等都是众多搜索引擎的代表。?搜索引擎的分类?从搜索层次上分为两类: ?常规搜索引擎和元搜索引擎?从信息媒介分: ?图像搜索引擎、视频搜索引擎、网页搜索引擎?从信息源的广度: ?综合办搜索引擎、专业搜索引擎?网页制作方式和处理方式: ? WEB 目录式、全文数据库式、 WEB 结构分析型?搜索引擎的发展趋势: ?个性化?智能化?整合化?垂直化?移动化?开放式? 搜索引擎的系统结构搜索引擎的系统结构?建立搜索引擎是将无序的网络信息资源进行有序化组织的有效方法。一个搜索引擎一般由搜索器( Spider ) , 索引器( Indexer ), 索引数据库( Index Database ),检索器( Searcher ), 和用户接口( User Interface )等五个部分组成。? 搜索器?是从因特网上采集信息的程序,也称之网络机器人。功能是在网上漫游,不断从网上采集并及时传回相关信息。?搜索器搜集信息的主要采集策略: ?网页选取策略: ?1、从网址集开始,逐步扩大到整个互联网。?2、从国家、或地区、或域名划分开始展开?3、从网站类别划分,对一类网络穷尽搜索?重复爬取策略:制定搜的时间,不用时时搜。?友好性策略:设定搜的页面范围,不用全面搜。?并行爬取策略:协调不同的搜索程序。?由于互联网上无数的网站页面,搜索引擎蜘蛛无法将所有的页面都下载保存到服务器。因此,许多搜索引擎的网络蜘蛛只是抓取那些重要的网页,而在抓取的时候评价重要性主要的依据是某个网页的链接广泛度(及外部链接的数量与质量)。?在抓取网页的时候, 搜索引擎蜘蛛一般有两种策略:广度优先和深度优先?广度优先是指搜索引擎蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让搜索引擎蜘蛛并行处理, 提高其抓取速度。深度优先是指搜索引擎蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是搜索引擎蜘蛛在设计的时候比较容易。?广度优先和深度优先?由于不可能抓取所有的网页,有些搜索引擎蜘蛛对一些不太重要的网站,设置了访问的层数。例如,在上图中, A为起始网页, 属于 0层, B、C、D、E、F属于第 1 层, G、 H属于第 2层, I属于第 3层。如果搜索引擎蜘蛛设置的访问层数为 2的话,网页 I是不会被访问到的。这也让有些网站上一部分网页能够在搜索引擎上搜索到,另外一部分不能被搜索到。对于网站设计者来说,扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。?权限: ?在访问网站网页的时候,经常会遇到加密数据和网页权限的问题,有些网页是需要会员权限才能访问。网站可以通过协议让搜索引擎蜘蛛不去抓取,但对于一些出售报告的网站,他们希望搜索引擎能搜索到他们的报告,但又不能完全免费的让搜索者查看,这样就需要给搜索引擎蜘蛛提供相应的用户名和密码。搜索引擎蜘蛛可以通过所给的权限对这些网页进行抓取。?搜索器信息处理流程: ?将搜索的各类信息的文档格式过滤,变成纯文本文件传回,然后交索引器抽取相应的信息建立索引数据库。

第八章索引数据库与搜索引擎-课件(PPT演示稿) 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数 24
  • 收藏数 0 收藏
  • 顶次数 0
  • 上传人 3047846861
  • 文件大小 0 KB
  • 时间2016-04-12
最近更新