下载此文档

heritrix文档.docx


文档分类:IT计算机 | 页数:约22页 举报非法文档有奖
1/22
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/22 下载此文档
文档列表 文档介绍
/1337240 1. Heritrix 简介 Heritrix 是一个专门为互联网上的网页进行存档而开发的网页检索器。它使用 Java 编写并且完全开源。它主要的用户界面可以通过一个 web 流量器来访问并通过它来控制检索器的行为,另外,它还有一个命令行工具来供用户选择调用。 Heritrix 是由互联网档案馆和北欧国家图书馆联合规范化编写于 2003 年初。第一次正式发布是在 2004 年1 月,并不断的被互联网档案馆和其他感兴趣的第三方改进着。到现在已经成为一个成熟的开源爬虫,并被广泛使用。 Heritrix 的操作模型: 从模型中可以看到, 利用 Heritrix 我们可以轻松从互联网上获取信息并将它们全部存储下来,然后可以任意的访问获取到的网页信息并可以查看报告。 Heritrix 的整体结构简图如下: 它的工作流程是一个循环,具体流程是: 1 在预定的 URI 中选择一个。 2 从选择的 URI 的网址下载远程文件 3 分析,归档下载到的内容 4 从分析到的内容里面选择感兴趣的 URI 。加入预定队列。 5 标记已经处理过的 URI 在大概的了解了 Heritrix 及它的工作机制之后, 我们就可以开始 Heritrix 的使用了。 2. Heritrix 的配置与使用 1) 安装与配置从官方网站 http://crawler./ 下载最新版本的 Heritrix 运行包,解压到一个文件夹内。其中, Heritrix 所用到的工具类库都存于 lib下, 另外,在 Heritrix 目录下有一个 conf 目录,其中包含了一个很重要的文件: heritrix. pr operties 在 中配置了大量与 Heritrix 运行息息相关的参数, 这些参数主要是配置了 Heritrix 运行时的一些默认工具类、 WebUI 的启动参数, 以及 Heritrix 的日志格式等。当第一次运行 Heritrix 时,只需要修改该文件,为其加入 WebUI 的登录名和密码。在"=" 后面增加账户和密码, 比如 = admin:admin 。其中, 用户名和密码是以一个冒号进行分隔, 使用者可以指定任何的字符串做为用户名密码。新建一个文件 作为启动 Heritrix 的命令文件,在文件内写入: (假设文件夹路径为 D:\heritrix ) 运行上述脚本,在浏览器输入 http://localhost:8080/ , 输入之前设置的用户名密码, 即可进入 Heritrix 管理页面。 2) 新建抓取任务(1) 单击菜单栏上的“ Jobs ”标签,就可以进入任务创建页面。如下图所示: (2) 在任务创建页面中,有 4 种创建任务的方式,具体含义如下: ?? Based on existing job : 以一个已经有的抓取任务为模板, 创建所有抓取属性和抓取起始 URL 的列表?? Based on a recovery :在以前的某个任务中,可能设置过一些状态点,新的任务将从这个设置的状态点开始。?? Based on a profile :专门为不同的任务设置了一些模板,新建的任务将按照模板来生成。?? With defaults :这个最简单,表示按默认的配置来生成一个任务。(3) 单击 With defaults 链接,创建一个新的抓取任务。(4) 在新建任务的名称上, 填入任务名称。在 Description 中随意填入字符, 然后再在 seeds 框中,填入待抓取的起始网址。如下图所示: (5) 单击“ Modules ”按钮,就进入了配置抓取时的处理链的页面。在倒数第三项"Select Writers " 内删除默认的" RCWriterProcess ”,加"" ,这样执行任务的时候抓取到的页面会以镜像的方式放在本地的目录结构中,而不是生成 ARC 存档文件。如下图: (6) 单击“ Settings ”按钮,进入了属性设置的页面。在属性设置页面上有非常多的输入域, Heritrix 在抓取网页时, 这些域是用来对的各个组件的值进行预设。由于页面上的内容非常多,使用者可能无法全部了解它们的作用。所以 Heritrix 提供了一个辅助功能,来在最大程度上让使用者了解每个参数的含义。在每个属性的右侧都有一个小问号, 当单击问号时, 就会弹出一个 Javascript 的 Alert 提示框,上面介绍了当前属性的作用。当在

heritrix文档 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数22
  • 收藏数0 收藏
  • 顶次数0
  • 上传人yixingmaoj
  • 文件大小1.29 MB
  • 时间2017-02-24