下载此文档

Nutch相关框架安装使用最佳指南.pdf


文档分类:IT计算机 | 页数:约27页 举报非法文档有奖
1/27
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/27 下载此文档
文档列表 文档介绍
chabale的专栏
[置顶] Nutch相关框架安装使用最佳指南
分类: 技术类 2013-06-14 09:48 621人阅读评论(2) 收藏举报
NutchHadoopLuceneSolr
一、
二、
三、
四、配置SSH
五、安装Hadoop Cluster(伪分布式运行模式)并运行Nutch
六、安装Hadoop Cluster(分布式运行模式)并运行Nutch
七、配置Ganglia监控Hadoop集群和HBase集群
八、Hadoop配置Snappy压缩
九、Hadoop配置Lzo压缩
十、配置zookeeper集群以运行hbase
十一、配置Hbase集群以运行nutch-(Region Servers会因为内存的问题宕机)
十二、umulo集群以运行nutch-(gora存在BUG)
十三、配置Cassandra 集群以运行nutch-(Cassandra 采用去中心化结构)
十四、配置MySQL 单机服务器以运行nutch-
十五、 使用DataFileAvroStore作为数据源
十六、 使用AvroStore作为数据源
十七、配置SOLR
十八、Nagios监控
十九、配置Splunk
二十、配置Pig
二十一、配置Hive
二十二、
一、
 步骤和二大同小异,在步骤 5、配置构建路径中需要多两个操作:在左部Package Explorer的
上单击右键> Build Path > Configure Build Path...   >  选中Source选项> Default output folder:修改
/_bin,在左部Package Explorer的 > Team >
还原
 二中黄色背景部分是版本号的差异,,绿色部分是不一样的地方,如下:
 1、Add JARs... >  > lib ,> OK
 2、crawl-
 3、将crawl - -
 4、修改crawl-,将
# accept hosts in
+^http://([a-z0-9]*\.)*/ 
# skip everything else
-.
 5、cd /home/ysc/workspace/
 ,。,也可以直接生成
LUCENE索引,:
 1、cd /home/ysc
 2、wget ./apache/tomcat/tomcat-7/-
tomcat-
 3、tar -xvf apache-tomcat-
 4、在左部Package Explorer的 > Run As > Ant Build... > 选
中war target > Run
 5、cd /home/ysc/workspace/
 6、unzip nutch- -d nutch-
 7、cp -r nutch- /home/ysc/apache-tomcat-
 8、vi /home/ysc/apache-tomcat---INF/classes/nutch-
 加入以下配置:
 <property>
  <name></name>
  <value>/home/ysc/workspace/</value>
  <description>
  Path to root of crawl.  This directory is searched (in

Nutch相关框架安装使用最佳指南 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数27
  • 收藏数0 收藏
  • 顶次数0
  • 上传人紫岑旖旎
  • 文件大小0 KB
  • 时间2013-12-22