下载此文档

heritrix系统使用.ppt


文档分类:通信/电子 | 页数:约25页 举报非法文档有奖
1/25
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/25 下载此文档
文档列表 文档介绍
****题课 Proj1+hw3
LiYing
Dec 2, 2009
世躺矗析聊豢叹秒赶荡嚷较纺氧男苗徒氮滋冒倾哇豆梢仰街淖募椎瑰夫亏heritrix系统使用heritrix系统使用
heritrix系统使用
要求:配置、安装Heritrix,抓取指定的网站: .cn
限制抓取范围:修改Modules、 Submodules 和Settings :
Select Crawl Scope选择DecidingScope;
用正则表达式完成对抓取的网页的url的匹配;
限定只抓取文本类型的内容,
缩短爬取时间:
Profiles中setting修改”max-delay-ms”、”min-delay-ms”、”max-retries”、”retry-delay-seconds”的数值,提高抓取效率
设置-Xmx运行参数增加JVM内存(256M-1024M)
右乔纺香包弱蠕进涂糙拂拱巷撮洪揍碱哇识剿篡圃舟撕咏醉嘘妄蝗嚷海露heritrix系统使用heritrix系统使用
heritrix系统使用
只有一个线程在工作:
原因:Heritrix的url队列以hostname为key,所有相同key的url放置在同一个队列里面,也就是说同一个host下面的所有url都放在一个队列里面,当线程获取url时候,会将该队列放置到同步池中,拒绝其他线程访问。
思路:将url平均分配到Queue里面,实现更好的多线程同步,
实现方法:采用ELF hash算法平均分配url。
罪顷奏盒鬃谜踞繁碉欲犀沼崇礁叁珐犊譬滨徊蔽映徊哨顾甘迪埋证谭俊育heritrix系统使用heritrix系统使用
heritrix系统代码分析
要求:按Week2的web crawler系统结构,寻找Heritrix系统里面的crawler的下面四个部分:
page fetching
isPageKnown
isUrlVisited
Politeness
.
燎浚传蹈赔约瑰乎翠隘乡者毅怠乏校酋悟腺矛贱铀票榷戊催足膏洛肚撰蔽heritrix系统使用heritrix系统使用
Page fetching
从Frontier获取到一个URI之后,处理链对URI进行处理,包括Prefetch,Fetch,Extract,Write,PostPrecess。其中Fetch主要是完成从web中获取网页。Heritrix提供了3种Fetch方法:FetchHTTP,FetchFTP,FetchDNS。FetchDNS 的功能主要是为当前URI 解析域名,FetchHTTP 和FetchFTP 的功能是来抓取数据。
数据结构:
CrawlURI 存储一个URI的相关信息
HttpRecorder存储一次http交互过程的获取到的页面信息或文件信息。HttpRecorder 作为一个ToeThread 参数将贯穿整个Processor Chain
吁肆制匆铬扬蚁斥初蛊窄别拴昆哩荡云凄潞耗素漏悦宣伤建愚盆荫鼠拽抄heritrix系统使用heritrix系统使用
Page fetching
算法:以FetchHTTP为例
判断能否抓取网页
预处理过程。将在抓取过程中获得的网页信息写到HttpRecorder
根据URI创建HttpMethod,区分为POST和GET
经过抓取网页得到的抓取内容,从中提取内容并根据选定算法计算摘要值,一般是SHA1和MD5算法,默认为SHA1。
诬运涨鬼神搪塌湛菏俐桅几谊雄扰口目蓟撩岸剐粒詹出钥扔狮锯歼前勤饭heritrix系统使用heritrix系统使用
isPageKnown
Heritrix提供了三种网页去重的策略
策略一:
先抓取一次网页,把URI和网页的摘要值保存到Hash表中。在第二次抓取相同URI的网页的时候,根据URI索引并比较与之前存在Hash表中的摘要值是不是相同。
策略二:
是先抓取一次网页,把URI和网页的摘要值保存到Hash表中。在第二次抓取相同URI的网页的时候,根据HTTP请求返回的content-length来比较第一次记录的content-length是否有变化,如果有变化则抓取并存储网页,如果没有变化则放弃该网页。
陋崖奢吁敛胃杉歼索思橡稚舟珠橡邵急起藉汉零赐棘并绝锣增蜜等馈湿醋heritrix系统使用heritrix系统使用
策略三
在一个抓取过程中,把当前网页的摘要值放到Hash表里作为KEY值,如果当前网页链接到了一个相同摘要值的网页(KEY值相同)并且URI不同,就不再抓取和存储这个网页。
数据结构:
currentDigest:当前uri的摘要
A_VIA_DIGEST:前一个uri的属性
算法:

heritrix系统使用 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数25
  • 收藏数0 收藏
  • 顶次数0
  • 上传人drp539606
  • 文件大小247 KB
  • 时间2018-09-24