下载此文档

搜索引擎工作原理简介.ppt


文档分类:IT计算机 | 页数:约21页 举报非法文档有奖
1/21
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/21 下载此文档
文档列表 文档介绍
第三节:搜索引擎工作原理简介搜索引擎工作过程搜索引擎的工作过程大体上可以分为三个阶段:一:爬行和抓取--搜索引擎蜘蛛通过跟踪链接访问网页,获得页面HTML代码存入数据库。二:预处理--索引程序对抓取来的页面数据进行文字提取,中文分词,索引等处理,以备排名程序调用。三:排名--用户输入关键词后,排名程序调用索引库数据,计算相关性,然后按一定格式生成搜索结果页面。第一步:爬行和抓取爬行和抓取是搜索引擎工作的第一步,完成数据收集的任务。1、蜘蛛定义:搜索引擎用来爬行和访问页面的程序被称为蜘蛛(spider),也称为机器人(bot)。爬行方式:多个蜘蛛并发分布爬行。爬行抓取规则:蜘蛛访问任何一个网站时,。蜘蛛身份:每一个搜索引擎的蜘蛛名称也不同,如下:Baiduspider+百度蜘蛛Sogou+web+robot+搜狗蜘蛛Sosospider+搜搜蜘蛛第一步:爬行和抓取2、跟踪链接整个互联网是由相互链接的网站及页面组成的,蜘蛛抓取页面的唯一途径是通过跟踪互联网上的链接进行。爬行策略--1、深度优先;2、广度优先爬行和抓取3、吸引蜘蛛问:为何要吸引蜘蛛?答:单从理论上来说蜘蛛可以爬行和抓取互联网上所有页面,但是实际上不能,也不会这么做,在这种前提下,蜘蛛所要做的就是尽量抓取重要页面。所以,我们SEO人员要想让自己的更多页面被收录,就要想方设法吸引蜘蛛来抓取。被搜索引擎认为符合重要页面的几个因素:1、网站和页面权重2、页面更新度3、导入链接4、与首页点击距离第一步:爬行和抓取4、地址库为了避免重复爬行和抓取网址,搜索引擎会建立一个地址库,记录已经被发现还没有抓取的页面,以及已经被抓取的页面。地址库中URL的来源:1、人工录入的种子网站2、蜘蛛抓取后从HTML中解析出新的链接URL,与地址库中的数据进行对比,如果是地址库中没有的网址,就存入待访问地址库。3、站长通过搜索引擎网站提交入口提交进来的网址。蜘蛛会按照重要性从待访问地址库中提取URL,访问并抓取页面,然后把这个URL从待访问地址库中删除,放进已访问地址库中。备注:搜索引擎所收录的大部分页面是蜘蛛自己根据跟踪链接得到的,搜索引擎更喜欢自己沿着链接发现新页面。第一步:爬行和抓取5、文件存储搜索引擎蜘蛛抓取的数据存入原始页面数据库。其中的页面数据域用户浏览器得到的HTML是完全一样的,每个URL都有一个独特的文件编号。6、爬行时的复制内容检测通常删除复制内容是在预处理步骤中执行的,但是现在蜘蛛在爬行和抓取文件时,也会进行一定程度的复制内容检测,遇到权重很低的网站上大量转载或抄袭内容时,很可能不再继续爬行。实践情况:有的站长在自己网站日志中发现了蜘蛛,但是页面从来没有被真正的收录过的原因。第二步:预处理在一些SEO材料中,“预处理”也被简称为“索引”,因为索引是预处理最主要的步骤。搜索引擎预处理工作内容:1、提取文字除去HTML代码后,剩下的用于排名的文字只是这一行:新浪首页备注:除了可见文字,搜索引擎也会提取出一些特殊的包含文字信息的代码,如:META标签中的文字,图片替代文字,Flash文件中的替代文字,链接锚文字等。第二步:预处理2、中文分词--分词是中文搜索引擎特有的步骤分词意义:搜索引擎存储和处理页面及用户搜索都是以词为基础的。分词如:“减肥方法”将被分词为“减肥”和“方法”两个词中文分词方法基本上有两种:1、基于词典匹配--将待分析的一段汉字与一个事先造好的词典中的词条进行匹配,在待分析汉字串中扫描到词典中已有的词条则匹配成功,或者说切分出一个单词。2、基于统计--指的是分析大量文字样本,计算出字与字相邻出现的统计概率,几个字相邻出现越多,就越可能形成一个单词。

搜索引擎工作原理简介 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数21
  • 收藏数0 收藏
  • 顶次数0
  • 上传人allap
  • 文件大小310 KB
  • 时间2019-02-07