目录一、软件安装二、新建站点三、采集网址四、采集内容五、发布内容六、任务采集七、导出数据需要安装软件:(1)WAMP5-(2)phpcms(3)LocoySpiderV2009SP4_Build20090807 (火车头采集器)注:每次采集前需要將wamp5打开后,在用火车头采集。一、软件安装1、,解压缩phpcms后将phpcms1剪切出来放到D:\wamp\1改名为phpcms。2、打开WAMP5,启动PHPsettings栏目中的shortopentag。3、安装PHP,输入http://localhost/phpcms/。4、解压LocoySpiderV2009SP4_Build20090807将Module文件下的phpcms2008-:\wamp\。 安装部分完成一、软件安装打开火车头软件()界面如下图:二、新建站点第一步:新建站点(如右图)二、新建站点第二步:点击“新建站点”后出现如下界面。填写站点名和站点网址点击“更新”三、采集网址新建好的站点会排列在窗口左侧“站点&任务列表”中。右击新建好的站点,点击“从该站点新建任务”,出现如下界面。以本列表为例:./list/:批量/多页三、采集网址三、采集网址单条网址选项下:三、采集网址填写完成后,点击“完成”。则出现以下界面:注释:1、在选择目标站时,最好选择文章更新快,文章质量高(少广告词、图片、链接、视频、flash等),内容丰富并且在业界有一定权威性的站点。2、过于滞后的文章不要采集。(例如:08年、09年的文章)3、在选择列表的过程中最好以站点为单位,不要以某个列表为单位,这样采集效率会事半功倍。4、在选择目标站时尽量不要选择动态页,多选择可以用数字或字母(*)代替的静态页。5、在采集过程中遇到不需要采集的文章,可以通过“不得包含”功能将其过滤掉。三、采集网址
火车头采集器使用流程说明 来自淘豆网www.taodocs.com转载请标明出处.