下载此文档

火车头采集教程火车头采集器使用说明.doc


文档分类:IT计算机 | 页数:约35页 举报非法文档有奖
1/35
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/35 下载此文档
文档列表 文档介绍
优秀
火车头采集教程火车头采集器使用说明
上图中, 是主程序,我们双击打开。。。
ps:这里说下,上图中,有好多任务是我自己用的。。。新程序,并没有那么多。。。
我们会看到火车的界面,看起来非常复杂,是吧? 呵呵,其实并没有那么复杂,对于新手,有好多东西是用不到的。。。下边会一一的讲解。。。
我们先补****一下,火车头采集软件的工作原理。。。
因为我们浏览到的网页,最后都是通过html输出的,那么意味着,我们可以查看到html的源码,那么火车头为什么会采集到内容呢?
我们看下网站的基本结构。。。
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML Transitional//EN" "/xhtml1/DTD/xhtml1-">
<html xmlns="9/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" /> -------这些蓝色的东西,对于新手,我们不需要知道!
<title>网页的标题</title> ----红色的是网页的标题。。。如下图(1)
</head>
<body>
内容                在这个<body>和</body>之间的,是网站的内容部分。。如下图(2)
</body>
</html> ----------这里是网站的结尾。。。。
如果想查看一个网页的html源文件,之需要点击浏览器上的查看,源文件即可。。。。
(1)
(2)
那么,我们知道了一个网页最基本的架构,那么就好理解火车采集的基本原理了
火车采集软件是怎么采集的呢?
我们配置好火车头采集规则,什么叫采集规则?就是我们查看网页的源文件,看看整个网页的源码,内容部分的开始标签,和结束标签,这样火车才能知道,我们要采集这个页面的哪个部分,比如下边我们演示的。。。
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML Transitional//EN" "/xhtml1/DTD/xhtml1-">
<html xmlns="9/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<title>网页的标题</title>
</head>
<body>
内容
</body>
我们想要采集“内容”那么就要告诉火车采集器,内容开始标签是<body>,结束标签就是</body>
明白了么?呃。。。估计是我的表达能力不够好。。。so。。。我们看下边的实例,在好好巩固下就OK。。。
OK。。那么我们开始一步一步教大家设置采集规则。。。
首先第一个。。我们的目标站。。discuz!。。。um-60-
我们要把这个版块的内容以及回复都采集到我们的网站上去。。。
首先我们打开火车,新建一个站点。。。点击火车左上角上的新建按钮,选择新建站点。。。如下图
我们只需要填写站点名就可以,其余的保持默认,然后点击保存按钮!
然后。。。在这个站点下,新建一个任务。。。选中我们新建的站点,点击鼠标右键,选择第一个,从该站点新建任务。。。如下图
其中1,是任务的名字,必须填写。。。2,是整个采集任务的步骤向导,3,是文章列表的设置区域(下边讲解),4,和3差不多。。。5,是登录的地方,有些网址必须登录,我们才可以看到内容,就是这个东西!
OK。就这些,那么,我们一步一步的来!
首先我们给我们的任务加一个标题。。。
下一步,我们就开始设置列表的采集规则
(因为现在火车不知道 um-60- 这个页面的文章列表是那些,所以我们要告诉火车!)
这里有两种方式,新手嘛,我也不知道适合哪种。。。我们就用默认的吧,第一种
我们点击向导添加
然后出现下图。。
其中有4个选项卡,
如果我们只采集目标站点的一个文章列表um-60-,那么我们选中单条网址,直接写上目标的列表网站,如下图!
然后点击添加,点击完成就OK。。
那么,如果我们要采集多个列表。那么我们回到
看下边的图
其中1,是目标网站的地址
其中2,是火车的通配符(就是某个东西识别的东西)
其中3,是间隔数已经补零(下边一一讲解)
其中4,数字变化。。。下边讲解
其中5,字母变化。。。
那么。。。看下图
图中在地址栏填写的是
um-60-(*).html 这

火车头采集教程火车头采集器使用说明 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数35
  • 收藏数0 收藏
  • 顶次数0
  • 上传人3346389411
  • 文件大小0 KB
  • 时间2013-12-03
最近更新