下载此文档

Heritrix使用小结.docx


文档分类:办公文档 | 页数:约7页 举报非法文档有奖
1/7
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/7 下载此文档
文档列表 文档介绍
Heritrix 使用小结 1. Heritrix 简介 Heritrix 是一个专门为互联网上的网页进行存档而开发的网页检索器。它使用Java 编写并且完全开源。它主要的用户界面可以通过一个 web 流量器来访问并通过它来控制检索器的行为,另外,它还有一个命令行工具来供用户选择调用。 Heritrix 是由互联网档案馆和北欧国家图书馆联合规范化编写于 2003 年初。第一次正式发布是在 2004 年1月,并不断的被互联网档案馆和其他感兴趣的第三方改进着。到现在已经成为一个成熟的开源爬虫,并被广泛使用。 Heritrix 的操作模型:从模型中可以看到,利用 Heritrix 我们可以轻松从互联网上获取信息并将它们全部存储下来,然后可以任意的访问获取到的网页信息并可以查看报告。它的工作流程是一个循环,具体流程是: 1在预定的 URI 中选择一个。 2从选择的 URI 的网址下载远程文件 3分析,归档下载到的内容 4从分析到的内容里面选择感兴趣的 URI 。加入预定队列。 5标记已经处理过的 URI 在大概的了解了 Heritrix 及它的工作机制之后,我们就可以开始 Heritrix 的使用了。 2. Heritrix 的配置与使用 1) 安装与配置从官方网站http://crawler./ 下载最新版本的Heritri x运行包,解压到一个文件夹内。其中,Heritrix 所用到的工具类库都存于 lib 下,另外,在Heritrix 目录下有一个 conf 目录,其中包含了一个很重要的文件: 中配置了大量与 Heritrix 运行息息相关的参数,这些参数主要是配置了 Heritrix 运行时的一些默认工具类、WebUI 的启动参数,以及 Heritrix 的日志格式等。当第一次运行 Heritrix 时,只需要修改该文件,为其加入 WebUI 的登录名和密码。在"=" 后面增加账户和密码,比如 =admin:admin 。其中,用户名和密码是以一个冒号进行分隔,使用者可以指定任何的字符串做为用户名密码。新建一个文件 作为启动 Heritrix 的命令文件,在文件内写入: (假设文件夹路径为 D:\heritrix ) 运行上述脚本,在浏览器输入 http://localhost:8080/ ,输入之前设置的用户名密码,即可进入 Heritrix 管理页面。 2) 新建抓取任务(1)单击菜单栏上的“Jobs ”标签,就可以进入任务创建页面。如下图所示: (2)在任务创建页面中,有 4种创建任务的方式,具体含义如下: ?? Based onexisting job :以一个已经有的抓取任务为模板,创建所有抓取属性和抓取起始 URL 的列表?? Based onarecovery :在以前的某个任务中,可能设置过一些状态点,新的任务将从这个设置的状态点开始。?? Based onaprofile :专门为不同的任务设置了一些模板,新建的任务将按照模板来生成。?? With defaults :这个最简单,表示按默认的配置来生成一个任务。(3)单击 With def

Heritrix使用小结 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数7
  • 收藏数0 收藏
  • 顶次数0
  • 上传人wangzhidaol
  • 文件大小50 KB
  • 时间2017-02-24