下载此文档

GB3215-82炼厂、化工及石油化工流程用离心泵通用技术条件.pdf


文档分类:行业资料 | 页数:约37页 举报非法文档有奖
1/37
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/37 下载此文档
文档列表 文档介绍
北京大学计算机网络体系结构课程 Heritrix 研究报告 Heritrix 安装使用代码分析及网站链接分析北大深圳研究生院信息工程学院组长:闫应威组员:霍佳森胡钊王超题目: Heritrix 研究试验报告摘要: H eritrix 是一款开源的由 Java 写成的网络爬虫项目, 通过对项目进行安装使用能够了解网络爬虫的一般结构并了解爬虫的各种机制的实现方法, 通过对下载网站进行连接分析可以系统掌握 pagerank 算法并理解网络的一般结构。研究报告主要介绍对 Heritrix 的研究方法,并对实验结果进行分析。通过介绍 Heritrix 的使用方法以求用简便的方式加速抓取并输出抓取网站 URL 之间的图连接关系。简介: 报告主要针对作业内容进行试验方法上的研究与实验结果上的分析,首先在方法中介绍爬虫安装使用上的技巧,然后介绍如何通过修改代码得到获取网站的连接关系图,最后在实验结果中回答连接关系的数据以及 Heritrix 的两种机制的实现方式。在连接关系的分析上主要通过 PageRank 算法来实现对整个拓扑结构的分析。在分析方法上面主要使用了五种方法来提高 Heritrix 的抓取速度。分析代码的过程中主要参照了 Heritrix 的参考文档, 查找到相应机制的实现类内容。通过对 Heritrix 的研究与使用可以帮助我们更深入的了解爬虫的实现原理,对以后研究爬虫的各方面性质提供很有意义的参考。通过对获取 URL 连接的分析有助于了解整个 web 图结构的性质。试验使用方法: 1 启动多线程更快 Heritrix 采用 HostnameQueueAssignmentPolicy 来进行对 URL 处理。 url 队列以 hostname 为 key ,所有相同 key 的 url 放置在同一个队列里面,也就是说同一个 host 下面的所有 url 都放在一个队列里面,当线程获取 url 时候,会将该队列放置到同步池中。所以添加一个自己的类,并将其添加到运行项中: 首先添加 public class ELFHashQueueAssignmentPolicy extends QueueAssignmentPolicy 然后在 AbstractFrontiers 中加入 ELFHashQueueAssignmentPolicy. class .getName() 。 2 修改 更快序号配置名理想值说明 1 <long name="max-time-sec">0</long> 3 抓取一个网页的最大时间(秒),超过了该时间则不抓取,0表示没有这个限制 2 <integer name="max-toe-threads">3</integer> 50 抓取的线程数,表示有多少个线程去抓取,一般 50足够了 3 <float name="delay-factor"></float> 如果从某个队列抓取一个 URL花费 N秒,则下次从该队列获取 URL 去抓取则要延迟 N*该值 4 <integer name="max-delay-ms">20000</integer> 2000 队列的最大延迟时间,单位为毫秒 5 <integer name="min-delay-ms">2000</integer> 0队列的最小延迟时间,单位为毫秒 6 <integer name="max-retries">30</integer> 5 URL 抓取失败可以重试的次数,重试次数越少越好 7 <integer name="target-ready-backlog">50</integer> 200 准备队列中待抓取的 URL 个数,这些 URL 无需经过队列等待可以立刻去抓取 3 修改代码解决乱码 4 只抓去文本文件解决方法就是添加一个 rule ,过虑掉非文本类型的文件从而节省抓取时间。 5 修改 ExtractorHTML 输出 URL 图因为最终进行统计与 PageRank 算法迭代需要输入的数据为图的邻接表表示结构,因此在抓取过程中能过同时输出 URL 的图结构将有助于数据统计工作的完成。首先,定义输出的格式为如下: URL1 URL2 URL4 URL7 URLi ***** URL1 为当前的页面 URL 地址,之后为当前页面解析出来的 URL 地址, 以上面结构排列一行为一个邻接表的一项,将所有 URL 按照上述格式输出就得到了所需的 URL 图结构。然后,对 Heritrix 中 ExtractorHTML 进行修改, 具体修改如下: 函数: public void extract(CrawlURI curi) 中添加: 在函数: protected void processLink(CrawlURI

GB3215-82炼厂、化工及石油化工流程用离心泵通用技术条件 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数37
  • 收藏数0 收藏
  • 顶次数0
  • 上传人顾生等等
  • 文件大小0 KB
  • 时间2016-03-17