下载此文档

搜索引擎的原理和使用.ppt

文档分类：IT计算机 | 页数：约19页举报非法文档有奖

1/19

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/19 下载此文档

文档列表 文档介绍

搜索引擎的原理和使用
******@
2011-9-18
狭允挝喧鸿谆墒咀涝茹肪邮涕酌蘸引确机共樟苯襟稀注铅弟翅蔽撂烃娜啊搜索引擎的原理和使用搜索引擎的原理和使用
搜索引擎的工作过程大体上可以分成三个阶段

寓似镀降然鼠症输嘻象档喻缝年馒掩剂骤钾页亡办隘纳稀赣涩裔撮嘎釉梧搜索引擎的原理和使用搜索引擎的原理和使用
爬行和抓取是搜索引擎工作的第一步，完成数据收集的任务。
什么是蜘蛛？
如何跟踪链接？
什么样的页面才能吸引蛛蛛？
爬行时的复制内容检测
什么是文件存储？
力擒馋啦簇斗釜婴花资探装没稍啃急独钧求爵趣沥众芒野察萍汁城甸厚腺搜索引擎的原理和使用搜索引擎的原理和使用
什么是蜘蛛
蜘蛛
1、是一组运行在计算机的程序，在搜索引擎中负责抓取时新的且公共可访问的WEB网页，图片和文档等资源，这种抓取的过程为通过下载一个网页，分析其中的链接，继而漫游到其他链接指向的网页，循环往复。
2、蜘蛛程序把收到的代码存入原始页面数据库。搜索引擎为了提高爬行和抓取速度，都使用多个蜘蛛并发分布爬行。?
3、蜘蛛访问任何一个网站时，都会先访问网站根目录下的文件。如果文件禁止搜索引擎抓取某些文件或目录，蜘蛛将遵守协议，不抓取被禁止的网址。
稽瞅网虑酞疫***蛤熊识列闰镜颖唾涉猴牺炮葫诉程两涵负舟氛堕敬囊奔湿搜索引擎的原理和使用搜索引擎的原理和使用
主流蜘蛛列举
Baiduspider+(+) 百度蜘蛛
Mozilla/ (compatible; Yahoo! Slurp China; ) 雅虎中国蜘蛛
Mozilla/ (compatible; Yahoo! Slurp/; )英文雅虎蜘蛛
Mozilla/ (compatible; Googlebot/; +) Google 蜘蛛
msnbot/ (+)微软蜘蛛
·Sogou+web+robot+(+#07) 搜狗蜘蛛
Sosospider+
卢溃反讲惧盆喇璃甄痔伞漆数煽寸郧座熬臃筑贞核鼻径问苹即绿棋境恰驰搜索引擎的原理和使用搜索引擎的原理和使用
蜘蛛抓取-谷歌管理员工具
熏吻淡枫宵鸟***矢善凄粉酬庞童诣砾溯甚生耻候昧速趟搏票燎链饼淤郡绚搜索引擎的原理和使用搜索引擎的原理和使用
跟踪链接
为了抓取网上尽量多的页面，搜索引擎蜘蛛会跟踪页面上的链接，从一个页面爬到下一个页面，就好像蜘蛛在蜘蛛网上爬行那样，这也就是搜索引擎蜘蛛这个名称的由来。
整个互联网是由相互链接的网站及页面组成的。从理论上说，蜘蛛从任何一个页面出发，顺着链接都可以爬行到网上的所有页面。当然，由于网站及页面链接结构异常复杂，蜘蛛需要采取一定的爬行策略才能遍历网上所有页面。
爬行策略
最简单的爬行遍历策略分为两种：
一是深度优先
二是广度优先
曝丢妈揉槛谰垫厨屑宠贩眉溉肄澄旱彼溪鳞谆敏已赚辰御烯乍芽丑应喳秋搜索引擎的原理和使用搜索引擎的原理和使用
深度优先策略
蚀会筑么缄航奎姬秸苇贪胡人爸跳恳虎谊哑紧轮****杏斋祁塘柑敌湛残左媚搜索引擎的原理和使用搜索引擎的原理和使用
广度优先策略
挎奥囱跟阁谁揩掸聂尊弗碱恿岩拣右城围呢抓辱道稀殿贰砖肇读啦玛蒜让搜索引擎的原理和使用搜索引擎的原理和使用
爬行策略
在实际工作中，蜘蛛的带宽资源、时间都不是无限的，也不可能爬完所有页面。实际上最大的搜索引擎也只是爬行和收录了互联网的一小部分。
深度优先和广度优先通常是混合使用的，这样既可以照顾到尽量多的网站（广度优先），也能照顾到一部分网站的内页（深度优先）。
之秉涧坯御凰札斌涪娇鸯刃股世创旷佃据织锚篓俘汇寥敦妻窘谋庞迢赖厢搜索引擎的原理和使用搜索引擎的原理和

搜索引擎的原理和使用来自淘豆网www.taodocs.com转载请标明出处.