下载此文档

基于网站自描述数据的垂直搜索引擎的研究.pdf


文档分类:IT计算机 | 页数:约49页 举报非法文档有奖
1/49
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/49 下载此文档
文档列表 文档介绍
华中科技大学硕士学位论文基于网站自描述数据的垂直搜索引擎的研究姓名:王玉凌申请学位级别:硕士专业:计算机应用技术指导教师:李瑞轩 20090522 华中科技大学硕士学位论文 I 摘要随着 技术的不断发展特别是网络搜索引擎技术的发展,用户想要得到自己需求的网络链接成为越来越容易的事情。近几年,越来越多的领域搜索成为网络搜索引擎的又一新兴方向,它们关注于某一领域,可以给用户一个连续高效的综合性搜索结果,称之为垂直搜索引擎。传统搜索引擎不接受来自网站的任何数据, 把网站放在弱势的对立面,并完全忽略了网站渴望被了解的心情,搜索引擎这样做是基于可靠第一的想法。目前主流垂直搜索引擎也都没有接受网站数据的功能,所以提出了垂直搜索引擎利用来自网站的自描述性数据来提取网站文本中的知识。基于此想法,网站向搜索引擎发送网站自身的知识结构,搜索引擎利用此知识结构作为数据容器来解析网站文本,从而减少搜索引擎工作量。网站只要向搜索引擎发送自身描述数据为搜索引擎所用,那么搜索引擎就可以跳过对网站文本进行知识聚类等处理活动,而直接从网站文本中提取知识,提高自身的工作效率及获得更为准确的知识。具体实现过程包括以下三个步骤:搜索引擎对网站提交作出规范和引导;网站向搜索引擎发送自身描述性知识结构数据;搜索引擎以网站描述性数据为“数据容器”提取网站知识。这一方法实施后,搜索引擎绕过了知识聚类这一步骤,因而可以提高引擎的爬行效率并且会得到更高质量的知识。通过在模拟环境下的实验,证实会议搜索引擎作为垂直搜索引擎特例,可以利用网站关于自身知识的会议描述数据进行知识的提取。关键词: 垂直搜索引擎,数据容器,网络爬虫,网站自描述数据华中科技大学硕士学位论文 II Abstract With the continuous development of Inte rnet technology, especially web search engine technology, it is easier that the user getting work connections. In recent years, more and more special web search engi e out, that they pay close attention to a particular field. This kind of engine can give the user a continuous and constructive efficient prehensive search results, and this kind of search engine is called vertical search engine. Traditional search engines do not accept any data from the Web site, putting sites on the opposite side, so the site pletely ignored th e feelings of desire to be browsed. At present, the vertical search engine did not receiv e web site data too, therefore, Design the Methods to extract know ledge of the text that using self-describing data of web sites. Based on this idea, this method is discusse d that search engine receive the self- description data from th e sites, and then use the data structure as a data container to analysis website, so through the method to reduce thei r own workload and to improve analytical quality. So the search engine must to regul ate and guide the sites to submit the correct knowledge structure. With the Norms and Guide form the search engine, web site correctly sent to the engine

基于网站自描述数据的垂直搜索引擎的研究 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数49
  • 收藏数0 收藏
  • 顶次数0
  • 上传人gd433
  • 文件大小1.37 MB
  • 时间2016-08-27