下载此文档

搜索引擎及网络信息检索 PPT课件.ppt


文档分类:IT计算机 | 页数:约81页 举报非法文档有奖
1/81
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/81 下载此文档
文档列表 文档介绍
基于搜索引擎的网络信息检索
主要知识点


(web search engines)
(meat-search engines)



搜索引擎技术原理-搜索引擎概述
搜索引擎(search engine)是互联网上专门用于检索的网站的统称,目前已多达数百上千种,包括通用万维网搜索引擎、通用元搜索引擎和各种专用搜索引擎三大类型。
起源
可追溯至1990年,加拿大蒙特利尔大学学生Alan ,工作原理与现在的搜索引擎很接近。
基本原理
1993年底,人们认识到既然所有网页都可能有连向其他网站的链接,那么从跟踪一个网站的链接开始,就有可能检索整个互联网。
发展
1994年,yahoo!和Lycos问世,成功地使搜索引擎的概念深入人心。1995年后,搜索引擎进入了高速发展时期,被誉为仅次于门户网站的互联网第二大核心技术。
(1)搜索器(searcher)
20世纪90年代,“机器人”(robot)在计算机编程者中用于特指某种能以人类无法达到的速度不间断地执行某项任务的软件程序。
由于专门用于检索web信息的“机器人”程序像蜘蛛一样在网络间爬来爬去,因此,作为web搜索器的“机器人”就被称为“网络蜘蛛”。
网络蜘蛛的功能就是在互联网中不断漫游,发现和搜集信息。作为一个计算机程序,搜索器日夜不停地运行,尽可能多,尽可能快地搜集各种类型的新信息,并定期更新已经搜集过的旧信息,以避免出现死链接和无效链接。
搜索引擎技术原理-搜索引擎组成
(2)索引器(indexer)
索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,并生成文档库的索引表。索引项有客观索引项和内容索引项两种:客观索引项与文档的语意内容无关,如作者名,url,更新时间等等;内容索引项则是用来反应文档内容的,如关键词及其权重、短语、单字等等。
(3)用户检索界面(interface)
用户检索界面是搜索引擎呈现在用户面前的形象,其作用是接受用户输入的查询、显示查询结果、提供用户相关性反馈。为使用户方便、高效的使用搜索引擎,从搜索引擎中检索到有效、及时的信息,用户检索界面的设计和实现采用人机交互的理论和方法,以充分适应人类的思维****惯。
用户检索界面包括简单界面和高级界面两类。简单界面只提供用户输入查询串的文本框;高级界面提供用户按照检索模型查询的机制。
搜索引擎技术原理-搜索引擎组成
搜索引擎技术原理—搜索引擎的运作
(1)发现并搜集网页信息
搜索引擎通过高性能的“网络蜘蛛”程序(spider)自动地在互联网中搜索信息。
一个典型的网络蜘蛛的工作方式是通过查看一个页面,从中找到与检索内容相关的信息,然后再从该页面的所有链接中继续寻找相关的信息,以此类推,直至穷尽。
“网络蜘蛛”为实现快速浏览整个互联网,通常在技术上采用抢先式多线程技术实现在网上聚集信息。
(2)对信息进行提取并建立索引库
索引库的建立关系到用户能否最迅速的找到最准确、最广泛的信息。索引器对“网络蜘蛛”抓来的网页信息极快的建立索引,以保证信息的及时性。
建索引时对网页采用基于网页内容分析和基于超链分析相结合的方法进行相关度评价,能够客观地对网页进行排序,从而最大限度地保证搜索出的结果与用户的检索提问相一致。
搜索引擎技术原理—搜索引擎的运作
(3)用户检索利用
搜索引擎根据用户输入的检索词,在索引库中快速检出文档,进行文档与检索的相关度评价,对将要输出的结果进行排序,并将检索结果返回给用户。
当用户以关键词查找信息时,搜索引擎会在数据库中进行搜索,如果找到与用户要求内容相符的网站,并采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。
这是对前两个过程的检验,检验该搜索引擎能够给出最准确、最广泛的信息,检验该搜索引擎能否迅速地给出用户最想得到的信息。
搜索引擎技术原理—搜索引擎的运作
(1)简单搜索(simple search)指输入一个单词(关键词)进行搜索,也叫单词搜索。
(2)词组搜索(Phrase Search):指输入两个单词以上的词组(短语),提交搜索引擎检索并反馈结果,也叫短语搜索。现有搜索引擎一般都约定把词组或短语放在引号“”内。如果查找的是一个词组或多个汉字,最好的办法就是将它们用双引号括起来,这样得到的结果最精确,这就叫使用双引号进行精确查找。一般说来在网页搜索引擎中,用词组搜索来缩小范围从而找到搜索结果是最好的办法。
搜索引擎技术

搜索引擎及网络信息检索 PPT课件 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数81
  • 收藏数0 收藏
  • 顶次数0
  • 上传人小马匹匹
  • 文件大小0 KB
  • 时间2015-11-30