下载此文档

搜索引擎优化.doc


文档分类:IT计算机 | 页数:约35页 举报非法文档有奖
1/35
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/35 下载此文档
文档列表 文档介绍
web搜索引擎优化技术
学****web搜索引擎机制,理解web设计方法,以改进页面在搜索结果中的排名
搜索引擎
随着网络技术的迅速发展,万维网成为巨量信息的载体,如何有效地检索和利用这些信息成为巨大挑战。在未知链接地址时,用户要在这种信息海洋里查找信息无异于大海捞针。
搜索引擎(Search Engine)技术应势而生,成功地解决了这一难题。搜索引擎为用户提供信息检索服务,作为辅助人们检索信息的工具,是在Web上发现信息的关键技术,是用户访问万维网的最佳入口。根据权威调查显示,搜索引擎的导航服务已成为非常重要的互联网服务,全球80%的网站,其访问量70%-90%都来自于搜索引擎,因此,让搜索引擎收录更多的网页,就是提高网站访问量的最有效办法。
搜索引擎借助于自动搜索网页的软件,在网络上通过各种链接获得大页面文档的信息,并按照一定算法与规则进行归类整理,形成文档索引数据库,以备用户查询。提供这种服务的网站便是“搜索引擎”。
搜索引擎收集因特网上数以十亿计的Web文档,并对其每术语即关键词进行索引,建立索引数据库,当用户查找某个关键词的时候,所有在包含该关键词的文档都将作为搜索结果罗列出来。这些结果将按照与搜索关键词的相关度高低,依次排列显示。
搜索引擎搜索和收集的Web文档类型有HTML、PDF、博客、FTP文件、图片、字处理文档(Word、PPT)、多媒体文件等。本文主要涉及页面或Web文档。
商业运作成功的著名搜索引擎有Google、Yahoo、MSN, Ask Jeeves和百度等。
搜索引擎的工作原理
搜索引擎有两个重要组成部分,即离线部分和在线部分。离线部分由搜索引擎定期执行,包括下载网站的页面集合,并经处理把这些页面转换成可搜索的索引。在线部分在用户查询时被执行,根据与用户需求的相关性,利用索引去选择候选文档并排序显示。
搜索引擎的原理基于三段式工作流程,即搜集,预处理,提供服务。它以一定的策略在互联网中发现和搜集信息,对信息进行处理和组织,以便为用户提供检索服务,从而起到信息导航的目的。因此,搜索引擎的工作原理包括搜索引擎收录页面、建立索引和向用户提供查询服务等。
1 网页搜集
搜索引擎使用软件按某种策略自动获取文档,软件名称不同,如Robot、Spider、crawler,Wanderer等。Robot直译为机器人,crawler直译为爬行器,spider直译为网络蜘蛛,Wanderer直译为漫游器,它们是搜索引擎用来抓取网页的工具或自动程序。
著名搜索引擎的探测器(Robot):谷歌的为googlebot,百度的为baiduspider,MSN的为MSNbot,Yahoo的为Slurp。
搜索引擎将检索首页,并根据其中的链接去搜索网站其它页面。搜索引擎从Web中抓取页面的过程如同蜘蛛(spider)在蜘蛛网(Web)上爬行(crawl),被称为Web crawling或Spidering。
搜索引擎要从互联网上抓取网页,利用其Spider(蜘蛛)自动访问互联网,并沿着网页中的URL爬到其它网页。搜索引擎将Web看作是一个有向图:
搜集过程从初始网页的URL开始,找出其中所有URL并放入队列中;
根据搜索策略从队列中选择下一步要抓取的网页URL;
重复上述过程直到满足系统的停止条件。
网页抓取策略分为深度优先、广度优先和最佳优先三种。深度优先在很多情况下会导致蜘蛛的陷入(trapped)问题,目前常见的是广度优先和最佳优先方法。
Web有两个重要特征:信息海量和更新频率快,这使得Web crawling极其困难。
巨量信息意味着在给定时间蜘蛛只能下载部分Web页面,这需要蜘蛛有针对性地下载。快速的更新频率意味着蜘蛛在下载某个网站的最后一个页面时,说不定前面下载的页面已经被更新了。Crawling Web在某些程度上相似于在晴空万里的夜间观望天空,你所看到的只是群星在不同时刻状态的反映,因它们的距离不一。蜘蛛所获取的页面集合也非Web的快照,因这不代表任一时刻的Web。
如今,网络速度虽然有所提高,但仍然满足不了处理速度和存储容量的要求。因此,搜索引擎的Spider一般要定期重新访问所有网页,时间间隔因搜索引擎和目标网页而异,以便更新索引数据库,比较真实地反映出网页内容的更新情况,如增加新网页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。从而使得网页的具体内容及其变化情况比较准确地体现在用户的查询结果中。
2 预处理
预处理旨在为收集到的Web文档建立逻辑视图。
在传统的信息检索中,文档逻辑视图是“bag of words”模型,即文档被视同为一些单词的无序集合。而在Web搜索引擎中,这种视图被逐步扩展了,如用词频、权重、Web文档的元

搜索引擎优化 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数35
  • 收藏数0 收藏
  • 顶次数0
  • 上传人zhufutaobao
  • 文件大小447 KB
  • 时间2018-08-20