下载此文档

杰奇采集规则.doc


文档分类:行业资料 | 页数:约5页 举报非法文档有奖
1/5
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/5 下载此文档
文档列表 文档介绍
实例解释比较详细的杰奇小说采集规则编写教程发布:dxy字体:[增加减小]类型:转载最近接触到杰奇小说系统,当然主要的用到它的采集,第一次用不太熟悉,搜索到一篇采集规则讲解的比较详细的,特给大家分享添加采集规则规则说明系统默认变量:<{articleid}>-文章序号,<{chapterid}>-章节序号,<{subarticleid}>-文章子序号,<{subchapterid}>-章节子序号。系统标签*可以替代任意字符串。系统标签!可以替代除了<和>以外的任意字符串。系统标签~可以替代除了<>'"以外的任意字符串。系统标签^可以替代除了数字和<>之外字符串。系统标签$可以替代数字字符串。采集规则中,需要获取的内容部分用四个以上系统标签代替,如!!!!基本设置网站标识configs\article\,可随便填写,一般为所采集站点的域名简写,以和其他规则区分。例:feiku网站名称所采集站的名称。例:飞库网站地址所采集站的地址。例:号运算方式不是必须添写的,我这里就留空了。支持使用<{articleid}>标记的四则运算(+加,-减,*乘,/除,%取余)章节子序号运算方式不是必须添写的,我这里就留空了。(谁知道他一个文件夹放多少书啊,他不按规则放,我不是采集不到)支持使用<{articleid}>标记的四则运算(+加,-减,*乘,/除,%取余)***地址不使用***请留空***端口现有章节无法对应时候是否全部清空重新采集是否根据自己需要选择是否默认把采集到的文章设置为全本是否根据自己需要选择,如果选择"是"无论文章是连载还是完结,你站上都显示全本,建议选“否”发送HTTP_REFERER标志,用于突破防采集设置是否默认选“是”,不知道什么用,我选“是”先突破下再说对方网页编码(自动检测GB2312UTF8BIG5)默认“自动检测”编码与本站不同将自动尝试转换文章信息页面采集规则文章信息页面地址书籍信息页网址,书籍ID用<{articleid}>代替。例:k/<{articleid}>/,,然后找到文章标题在源文件的什么位置(我们是以飞库为例的,就是章节信息页面那个《文章标题》在源文件的位置).这里以《我的美女大小姐》这个为例,找到标题附近的代码是<divid="CrBookTitle"><spanclass="booktitle">《我的美女大小姐》</span></div>把上面代码复制到文章标题采集规则的那个框里,然后把我的美女大小姐这个真实的标题替换为!!!!当然也可以替换成其他的替换符号比如****不过讲究的是在能表达意思的情况下范围越小越好****惯问题,这里当然只能采集到文章标题了,但是其他的一些采集的时候就有你不想要的东西).作者采集规则<liclass="l6"><ahref="/Author/WB/">李兴禹</a></li>这里的李兴禹是要采集的内容,用!!!!代替不过144238只对这个文章有用,其他文章有其他的数字,所以用任意数字串$<liclass="l6"><ahref="/Author/WB/$.html">!!!!</a><

杰奇采集规则 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数5
  • 收藏数0 收藏
  • 顶次数0
  • 上传人文库旗舰店
  • 文件大小40 KB
  • 时间2020-04-06