网页去重技术与深度网络爬虫
汪圣莅 1110349145
内容提要
网页去重去杂
网页去重技术
爬虫陷阱、垃圾网页、隐形网页
SEO技术
深度网络爬虫
深度网络检测
信息提取
研究展望
网页去重技术
网页内容(content)
Shingling
SimHash
网页地址(URL)
DUST
网页去重-Shingling算法
Shingle:文档的相邻词串
文档相似度:
Egyptian activists have called for mass demonstrations after an overnight standoff between security forces and protesters in Cairo's Tahrir Square.
长度为4的Shingle
……
S(A) = { (Egyptian activists have called) ,
(activists have called for), ……}
SimHash算法
Hash算法的特性
SimHash:对相似内容产生相近签名
相似的输入经过hash运算后产生完全不同的输出
SimHash
输入:向量(文档特征集合) 输出:f位签名
V=(0,0,0,0) S = 0000
Hash(特征Ci) =1001 ,V = V + (Wi,-Wi,-Wi,Wi)
V=(30,10,-25,70) S = 1101
DUST-Different URLs with Similar Text
分析和建立url规则
/
R: “”””
遍历所有(p,a,s)元组
取所有(a,b)字串对,使得
它们有相同的前后缀p,s
检查(p,a,s)与(p,b,s)是否指向同一链接
构造规则ab
爬虫陷阱(Crawler Traps)
非恶意
日期链接
恶意
Spammers
在搜索页面中得到靠前的排名
垃圾网页(Web Spam)
提升在搜索引擎中的排名
对用户没有实际价值
垃圾网页的检测
目前主要为半人工方式
自动实现:
超链接特征
词组频率(term & phrase frequency)
HTML 结构
……
网页去重技术与深度网络爬虫-汪圣莅 来自淘豆网www.taodocs.com转载请标明出处.