下载此文档

网页去重技术与深度网络爬虫-汪圣莅.ppt


文档分类:研究报告 | 页数:约24页 举报非法文档有奖
1/24
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/24 下载此文档
文档列表 文档介绍
网页去重技术与深度网络爬虫
汪圣莅 1110349145
内容提要
网页去重去杂
网页去重技术
爬虫陷阱、垃圾网页、隐形网页
SEO技术
深度网络爬虫
深度网络检测
信息提取
研究展望
网页去重技术
网页内容(content)
Shingling
SimHash
网页地址(URL)
DUST
网页去重-Shingling算法
Shingle:文档的相邻词串
文档相似度:
Egyptian activists have called for mass demonstrations after an overnight standoff between security forces and protesters in Cairo's Tahrir Square.
长度为4的Shingle
……
S(A) = { (Egyptian activists have called) ,
(activists have called for), ……}
SimHash算法
Hash算法的特性
SimHash:对相似内容产生相近签名
相似的输入经过hash运算后产生完全不同的输出
SimHash
输入:向量(文档特征集合) 输出:f位签名
V=(0,0,0,0) S = 0000
Hash(特征Ci) =1001 ,V = V + (Wi,-Wi,-Wi,Wi)
V=(30,10,-25,70)  S = 1101
DUST-Different URLs with Similar Text
分析和建立url规则

/
R: “”””
遍历所有(p,a,s)元组
取所有(a,b)字串对,使得
它们有相同的前后缀p,s
检查(p,a,s)与(p,b,s)是否指向同一链接
构造规则ab
爬虫陷阱(Crawler Traps)
非恶意
日期链接
恶意
Spammers
在搜索页面中得到靠前的排名
垃圾网页(Web Spam)
提升在搜索引擎中的排名
对用户没有实际价值
垃圾网页的检测
目前主要为半人工方式
自动实现:
超链接特征
词组频率(term & phrase frequency)
HTML 结构
……

网页去重技术与深度网络爬虫-汪圣莅 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数24
  • 收藏数0 收藏
  • 顶次数0
  • 上传人w447750
  • 文件大小2.30 MB
  • 时间2018-05-27