下载此文档

搜索引擎.doc


文档分类:IT计算机 | 页数:约15页 举报非法文档有奖
1/15
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/15 下载此文档
文档列表 文档介绍
搜索引擎搜索引擎(search engine) 是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息, 在对信息进行组织和处理后, 为用户提供检索服务,将用户检索相关的信息展示给用户的系统。图片搜索引擎图片搜索引擎是全新的搜索引擎, 目前国内有安图搜。基于图像形式特征的抽取: 由图像分析软件自动抽取图像的颜色、形状、纹理等特征, 建立特征索引库, 用户只需将要查找的图像的大致特征描述出来, 就可以找出与之具有相近特征的图像。这是一种基于图像特征层次的机械匹配, 特别适用于检索目标明确的查询要求( 例如对商标的检索)。产生的结果也是最接近用户要求的。但目前这种较成熟的检索技术主要应用于图像数据库的检索, 在网上图像搜索引擎中应用这种检索技术还具有一定的困难。全文索引全文索引引擎是名副其实的搜索引擎,国外代表有 Google ,国内知名的百度搜索。它们从互联网提取各个网站的信息( 以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。根据搜索结果来源的不同,全文搜索引擎可分为两类:一类拥有自己的网页抓取、索引、检索系统( Indexer ), 有独立的“蜘蛛”( Spider ) 程序、或爬虫( Crawler )、或“机器人”( Robot )程序(这三种称法意义相同),能自建网页数据库,搜索结果直接从自身的数据库中调用,上面提到的 Googl e 和百度就属于此类; 另一类则是租用其他搜索引擎的数据库, 并按自定的格式排列搜索结果,如 Lycos 搜索引擎。目录索引目录索引虽然有搜索功能, 但严格意义上不能称为真正的搜索引擎, 只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息, 不依靠关键词( Keywords ) 进行查询。目录索引中最具代表性的莫过于大名鼎鼎的 Yahoo 、新浪分类目录搜索。元搜索引擎元搜索引擎( META Search Engine )接受用户查询请求后,同时在多个搜索引擎上搜索, 并将结果返回给用户。著名的元搜索引擎有 InfoSpace 、 Dogpile 、 Vivisimo 等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面, 有的直接按来源排列搜索结果,如 Dogpile ;有的则按自定的规则将结果重新排列组合, 如 Vivisimo 。垂直搜索引擎垂直搜索引擎为 2006 年后逐步兴起的一类搜索引擎。不同于通用的网页搜索引擎, 垂直搜索专注于特定的搜索领域和搜索需求(例如:机票搜索、旅游搜索、生活搜索、小说搜索、视频搜索等等) , 在其特定的搜索领域有更好的用户体验。相比通用搜索动辄数千台检索服务器, 垂直搜索需要的硬件成本低、用户需求特定、查询的方式多样。其他非主流搜索引擎形式: 1 、集合式搜索引擎:该搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索, 而是由用户从提供的若干搜索引擎中选择,如 HotBot 在 2002 年底推出的搜索引擎。 2 、门户搜索引擎: AOL Search 、 MSN Search 等虽然提供搜索服务, 但自身既没有分类目录也没有网页数据库, 其搜索结果完全来自其他搜索引擎。 3 、免费链接列表( Free For All Links 简称 FFA ):一般只简单地滚动链接条目, 少部分有简单的分类目录, 不过规模要比 Yahoo ! 等目录索引小很多。工作原理抓取网页每个独立的搜索引擎都有自己的网页抓取程序( spider )。 Spide r 顺着网页中的超链接, 连续地抓取网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍, 理论上, 从一定范围的网页出发,就能搜集到绝大多数的网页。处理网页搜索引擎抓到网页后, 还要做大量的预处理工作, 才能提供检索服务。其中, 最重要的就是提取关键词, 建立索引文件。其他还包括去除重复网页、分词( 中文)、判断网页类型、分析超链接、计算网页的重要度/ 丰富度等。提供检索服务用户输入关键词进行检索, 搜索引擎从索引数据库中找到匹配该关键词的网页; 为了用户便于判断, 除了网页标题和 URL 外, 还会提供一段来自网页的摘要以及其他信息。全文搜索引擎在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索, 即每隔一段时间( 比如 Google 一般是 28天), 搜索引擎主动派出“蜘蛛”程序,对一定 IP 地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提蜘蛛搜索引擎取网站的信息和网址加入自己的数据库。另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址, 它在一定时间内(2 天到数月不等) 定向向你的网站派出“蜘蛛”程序

搜索引擎 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数15
  • 收藏数0 收藏
  • 顶次数0
  • 上传人wc69885
  • 文件大小0 KB
  • 时间2016-06-20