下载此文档

网上信息搜索.ppt


文档分类:IT计算机 | 页数:约74页 举报非法文档有奖
1/74
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/74 下载此文档
文档列表 文档介绍
多媒体文化基础 网上信息搜索清华大学计算机科学与技术系*多媒体文化基础**多媒体文化基础*of74概要网上信息是网上文件所含内容的描述网上信息(web-basedinformation)网上信息搜索是查找多媒体文件信息的过程文字搜索(textsearch[1])——搜索文字文件的信息图像搜索(imagesearch)——搜索图像文件的信息声音搜索(audiosearch)——搜索声音文件的信息视像搜索(videosearch)——搜索影视文件的信息信息搜索的必备知识搜索工具有哪些搜索工具的特性搜索信息的方法搜索工具的使用*多媒体文化基础*(1)两种类型的搜索信息方法主题搜索(subjectsearch)主题是用简明的术语或短语描述信息资源的标题主题搜索是搜索编辑人员(如图书管理员)赋予信息资源的标题,搜索范围限定到描述信息资源的术语或短语关键字搜索(keywordsearch)关键字是用于概括信息资源核心内容的字词关键字词可出现在标题、摘要和正文的任何地方关键字搜索是搜索包含关键字的信息资源*多媒体文化基础*(2)四种类型的信息搜索工具 (informationsearchtool)网页目录——主题搜索工具网页目录像书前面的目录,列出每一篇、每一章、每一节的标题和相应的页码网页索引——关键字搜索工具网页索引像英文书后面的索引[1],列出书中所有关键词和每个关键字所在的所有页码专题数据库——基本属于关键字搜索工具网页搜索门户——主题搜索和关键字搜索相结合的搜索工具*多媒体文化基础*(3)(index)是由关键字和关联数据组成的列表,说明信息及其存储位置网页索引(Webindex)是万维网上的网页或网站信息的列表如果把万维网看成是一本“超大型的书”,那么网页索引就是这本书后面的“索引”网页索引放在“索引数据库”里网页索引包含“所有”网页的关键字和每个关键字所在的“所有”网页地址和简短说明按照网页索引提供的信息,可找到包含这个关键字的所有网页*多媒体文化基础*(4)网页索引用搜索引擎创建搜索引擎的工作原理搜索引擎(searchengine)是由网爬虫、索引器、数据库、查询和网页排名等部件组成的程序*多媒体文化基础*(5)搜索网页:使用网爬虫(crawlers)/网蜘蛛(spiders)不停地在网上搜索网页,并将搜索到网页暂时存放到网页库创建索引:通过索引器(indexer)分析网页、抽出词汇、创建索引,并将索引存入索引数据库,以备用户查询接收查询:当用户查询时,把查询请求告诉查询引擎(queryengine),将查询结果返回给用户搜索引擎可分成两种类型独立搜索引擎(individualsearchengine),简称为搜索引擎,拥有自己的网页索引数据库,如Google、必应和百度元搜索引擎(metasearchengine),没有自己的网页索引数据库*多媒体文化基础*(6)网页索引的性能查全率(recall)搜索引擎返回的匹配文档数量占所有相匹配文档总量的比例。例如,总共有100个相匹配的文档,搜索引擎只返回其中的80个文档,则其查全率是80%查准率(precision)搜索引擎列出的文档与查询内容相匹配的程度。列出的匹配文档越多,说明查准率越高。例如,搜索引擎列出80个文档,若其中有20个文档包含搜索字词,则其查准率为25%查询速度查询速度的衡量比较困难*多媒体文化基础*(7)网页索引的特点网页索引是查找网页的最好工具,尤其是查找包含关键字(keyword)、短语(phrase)和引述(quote)的网页网页索引是用搜索引擎创建的,能较及时地对新创建和更新的网页做索引给用户返回的查询结果中,通常有与查询请求不相关或相关性很小的网页虽然创建网页索引的原理相同,但各个公司开发的搜索引擎的性能不同,包括搜索速度、搜索范围、搜索算法和排名算法,呈现给用户的结果也就不同。虽然差别不是很大,但比较明显

网上信息搜索 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数74
  • 收藏数0 收藏
  • 顶次数0
  • 上传人rabbitco
  • 文件大小3.46 MB
  • 时间2019-10-13