第20讲链接分析LinkAnalysis2017/10/:Hub节点&:Hub节点&Authority节点提纲.*基本的采集过程初始化采集URL种子队列;重复如下过程:从队列中取出URL下载并分析网页从网页中抽取更多的URL将这些URL放到队列中这里有个“Web的连通性很好”***Mercator采集器(待采集URL缓冲池).7*本讲内容锚文本:Web上的链接相关信息为什么对IR有用?HITS:另一个著名的基于链接分析的排序算法(IBM)PageRank:一个著名的基于链接分析的排序算法(Google)引用分析(Citationanalysis):PageRank及其他基于链接排序方法的数学基础.*Web可以看成一个有向图假设1:超链接代表了某种质量认可信号超链d1→d2表示d1的作者认可d2的质量和相关性假设2:锚文本描述了文档d2的内容这里的锚文本定义比较宽泛,包括链接周围的文本 例子:“Youcanfindcheapcars˂ahref=http://…˃here˂/a˃.”锚文本:“Youcanfindcheaphere”.
信息检索20-链接分析 来自淘豆网www.taodocs.com转载请标明出处.