下载此文档

火车头使用说明.docx


文档分类:办公文档 | 页数:约20页 举报非法文档有奖
1/20
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/20 下载此文档
文档列表 文档介绍
火车头使用说明别的不说了,直接开始使用。(ps: 开始之前,最好把爬虫的原理了解一下) 咱们用的是免费版, 功能什么的很多受到限制, 免费版网页只能抓到两级, 而且无法定时执行任务。 1、安装完火车头后, 直接双击图标打开, 此时会弹出一个登录页面, 什么都不要管, 直接点击登录就进入了主界面,主界面如下: 你会发现它有一些内置的分组, 分组下面有内置的测试任务, 这里要强调一点, 每个任务从上到下对应着火车头安装目录 data 目录下的以数字开头的文件夹,里面放着各自的数据文件, 大概内置测试任务有 38个, 所以 data 目录下有对应从 1到 38的 38 个文件夹, 你以后新建任务后,会自动再 data 目录下建立文件夹,序号依次递增。 2、新建任务和分组。你可以新建分组, 也可以再已有的测试分组下面建立任务, 但是有一点要注意, 任务不能脱离分组而存在, 必须把任务存在分组里面, 这里咱们新建一个名字叫做腾讯的分组。 3、右键单击腾讯,选择新建任务,弹出新建任务对话框 4 、下面我们以腾讯新闻采集为例说一下如何去配置,任务名叫做腾讯新闻可以看到, 这里分为四步, 第一部就是采集网址规则( 这一步就相当于爬虫里面设置种子 url 并且入队的过程), 在出现的起始网址,添加单条网址,并点击”添加“按钮。我们在网页中,通过分析,发现国内新闻的第二页及以后都是以数字递增的方式显示的,我们现在添加等差数列形式的网址最后点击完成,查看效果起始网址的添加就是种子 URL 的设置过程, 这里可以添加多个种子 URL , 我这里设置了六页下面就是多级网址获取, 点击添加按钮, 出现如下画面( 这一步相当于提取网页所有连接的过程) 如果直接点击保存,相当于提取网页中所有链接,但真实情况下我们并不需要所有的链接, 所以需要对链接进行过滤, 可以从该选定区域提取网址, 也可以对结果网址过滤, 这里我们设置结果网址必须包含 http://news./a ,然后点击保存。你可以看到有一个检测重复网址, 这个选项的目的就是告诉你, 在多次抓取的过程中是否抓取相同网址的页面,这里默认是选中的。最后点击一下测试网址采集这个按钮,咱们看看效果: 可以看到需要的 url 已经采集到了,随意双击其中任意一个 URL ,会跳到第二部采集内容规则面板, 注意,下图中的使用提示部分新手是必看的,不然一些操作就不会知道。如图: 我们点击测试查看一下默认规则下的显示效果效果: _ 新闻_ 腾讯网这几个字是不需要的,要过滤掉,我们双击标题那一行,可以打开标题采集规则的设置界面。选择数据处理那部分的添加按钮,然后选择内容替换将_ 腾讯_ 新闻网替换为空数据处理列表就有一条记录。如果我们要做多次数据处理, 可以依次的添加处理的动作。也可以对处理的次序点击上图中的上下按钮进行调整。双击数据处理列表, 可以对选中的记录进行编辑。添加成功的结果如下点击确定,然后我们重新点击测试,可以发现那几个字已经没有了: 我们继续设置内容,右键单击测试按钮,点击在弹出的下拉列表中选择获取源码然后点击查找,在弹出的对话框中输入查询内容: 在内容的前边的代码是<P style="TEXT-INDENT: 2em"> ,我们再找一下后边的结束字符串。然后就可以利用前后截取的方式来采集数据了。结束字符串我们找到的是</P></div> , 然后以刚才设置标题的方法设置内容,如图

火车头使用说明 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数20
  • 收藏数0 收藏
  • 顶次数0
  • 上传人yixingmaoj
  • 文件大小0 KB
  • 时间2016-07-10