下载此文档

3 web搜索相关技术.ppt

文档分类：IT计算机 | 页数：约31页举报非法文档有奖

1/31

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/31 下载此文档

文档列表 文档介绍

,则它可能是很重要的;一个网页被重要的网页引用,则它可能是很重要的;一个网页的重要性被平均的传递给它所引用的网页。例如网页A有一个指向网页B的链接,则意味着网页A认为网页B是重要的;假如有10个网页指向网页A,而指向网页B的链接却只有2个,则说明网页A比网页B更加重要。Google给出的中科院文献情报中心网站的PageRank(7/10)Google给出的北京大学网站的PageRank(8/10)B(i)代表指向页面i的页面集合N(j)表示页面j中指向其它页面的超链数目PR(j)表示页面j的权威度PR(I)表示为页面i的权威度d(0<d<1)是一个衰减因子,,一般采用递归方式逐渐逼近最优解。(HypertextInducedTopicSearch)衡量网页重要性级别,有两个参数:权威度(Authoritive)中心度(Hub)基本思想好的Hub网页指向许多好的权威网页;好的权威网页是有许多好的Hub网页指向的Web网页。HITS算法①用基于文本的搜索引擎得到某一查寻的结果集合R;②将R所指向的页面集合以及其他指向R的页面集合包含进来形成集合S;③将所有页面的权威级别(Authority)、中心级别(Hub)全部置初始值为1;④采用如下算法进行递归计算:,为文档集合中的每个文档确定一个类别。通常采集基于词统计的分类方法。概念分类将提高分类精度。两步操作第一阶段-学****训练根据已经掌握的每类若干样本数据信息,总结出分类的规律性,建立判别公式和判别规则,包括预处理、特征提取、参数训练、生成分类知识库等过程。训练数据集:TextREtrievalConference(TREC)Data第二步阶段-类别判定用第一阶段生成的规则判别新文档所属的类别:Weka分类器–workprotocol输出::生成训练数据集(->)::生成测试数据::::TK5101-:TK5101-,而是通过分析文档内容动态生成类别。要求同一类别文档相似度尽可能大,而不同类间的相似度尽可能地小。“聚类假设”内容相关文档通常会聚类的比较靠近,远离不相关文档。主题表示方法通过识别在文本组中常用的一系列术语或单词来描述主题,找到其中隐含的相似关系,实现基于内容的文档聚类。文本聚类算法层次凝聚法平面划分法内容分析技术–聚类Grokker每个分类目录被显示为一个彩色的球体;球体的大小代表该类目下相关文献的数量子类目以包含在大球中的小球来表示当你点击相应的球体时,该区域就会被放大,里面就会显示更多的子类目(小球),这种“非线性”的搜索方式会让你迅速“逼近”所需要信息。页面净化根据网页结构,识别网页中不同类型的内容块,舍弃噪音信息,如导航信息、广告信息、版权信息等,剥离出正文信息。它是主题相关度计算、资源查重、自动摘要、?利用DOM树发现、提取与主题相关度较高的子树;网页信息抽取:抽取题名、文摘、正文文本等。

3 web搜索相关技术来自淘豆网www.taodocs.com转载请标明出处.