下载此文档

nutch-default.xml详细说明.doc


文档分类:医学/心理学 | 页数:约19页 举报非法文档有奖
1/19
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/19 下载此文档
文档列表 文档介绍
Forpersonaluseonlyinstudyandresearch;:\nutch--7C:\:\:\tomcat准备将中文的API文档配置到tomcat,,安装cygwin官方主页:选择installfromlocaldirectory安装到的目录选择已经下载的安装文件所在的目录选择全部安装(install)……需要等很长时间……设置环境变量NUTCH_JAVA_HOMEàC:\jdk抓取配置抓取的起始网站地址建立文本文件C:\nutch-\urls,内容为:.1/api/修改nutch-<?xmlversion=""?><?xml-stylesheettype="text/xsl"href=""?><configuration> <property> <name></name> <value>MySearch</value> </property></configuration>解释:      Nutch中的所有配置文件都放置在总目录下的conf子文件夹中,最基本的配置文件是conf/nutch-。这个文件中定义了Nutch的所有必要设置以及一些默认值,它是不可以被修改的。如果你想进行个性化设置,你需要在conf/nutch-,它会对默认设置进行屏蔽。        Nutch考虑了其可扩展性,你可以自定义插件plugins来定制自己的服务,一些plugins存放于plugins子文件夹。Nutch的网页解析与索引功能是通过插件形式进行实现的,例如,对HTML文件的解析与索引是通过HTMLdocumentparsingplugin,parse-html实现的。所以你完全可以自定义各种解析插件然后对配置文件进行修改,然后你就可以抓取并索引各种类型的文件了。 配置crawl--#,修改下面的一行为#+^http://(\.*)*解释如下:Nutch的爬虫有两种方式爬行企业内部网(crawling:针对少数网站进行,用crawl命令。爬行整个互联网:使用低层的inject,generate,fetch和updatedb命令,具有更强的可控制性。举例++句点符号匹配所有字符,包括空格、Tab字符甚至换行符:IP地址中的句点字符必须进行转义处理(前面加上“\”),因为IP地址中的句点具有它本来的含义,而不是采用正则表达式语法中的特殊含义。抓取双击Cygwin快捷方式,启动Cygwin$cd/cygdrive/c/nutch-/$bin/nutchcrawlurls-dircrawl-depth3-topN50或者$bin/nutchcrawlurls-dircrawl-depth3>&$bin/nutchcrawlurls-dircrawl-depth3-threads4urls就是刚才我们创建的url文件,存放我们要抓取的网址-dircraw指定抓取内容所存放的目录,如上存在mydir中-threads4指定并发的线程数-depth3表示以要抓取网站顶级网址为起点的爬行深度-topN50表示获取前多少条记录,可省>&,省略则将相关运行信息全部在控制台显示。观察抓取后生成的目录抓取后,在nutch目录下生成一个crawl文件夹,里面包含如下目录:crawldblinkdb①/②crawldb/linkdb:weblink目录,存放url及url的互联关系,作为爬行与重新爬行的依据,页面默认30天过期(可以在nutch-)segments③segments:一存放抓取的页面,与上面链接深度depth相关,depth设为2则在segments下生成两个以时间命名的子文件夹,比如”163012”,打开此文件夹可以看到,它下面还有6个子文件夹,分别是crawl_generate:namesasetofurlstobefetchedcrawl_fetch:containsthestatusoffetchingeachurlcontent:containsthecontentofeachurlparse_text:containstheparsedtextofeac

nutch-default.xml详细说明 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数19
  • 收藏数0 收藏
  • 顶次数0
  • 上传人乘风破浪
  • 文件大小134 KB
  • 时间2019-03-13