chabale的专栏
[置顶] Nutch相关框架安装使用最佳指南
分类: 技术类 2013-06-14 09:48 621人阅读评论(2) 收藏举报
NutchHadoopLuceneSolr
一、
二、
三、
四、配置SSH
五、安装Hadoop Cluster(伪分布式运行模式)并运行Nutch
六、安装Hadoop Cluster(分布式运行模式)并运行Nutch
七、配置Ganglia监控Hadoop集群和HBase集群
八、Hadoop配置Snappy压缩
九、Hadoop配置Lzo压缩
十、配置zookeeper集群以运行hbase
十一、配置Hbase集群以运行nutch-(Region Servers会因为内存的问题宕机)
十二、umulo集群以运行nutch-(gora存在BUG)
十三、配置Cassandra 集群以运行nutch-(Cassandra 采用去中心化结构)
十四、配置MySQL 单机服务器以运行nutch-
十五、 使用DataFileAvroStore作为数据源
十六、 使用AvroStore作为数据源
十七、配置SOLR
十八、Nagios监控
十九、配置Splunk
二十、配置Pig
二十一、配置Hive
二十二、
一、
步骤和二大同小异,在步骤 5、配置构建路径中需要多两个操作:在左部Package Explorer的
上单击右键> Build Path > Configure Build Path... > 选中Source选项> Default output folder:修改
/_bin,在左部Package Explorer的 > Team >
还原
二中黄色背景部分是版本号的差异,,绿色部分是不一样的地方,如下:
1、Add JARs... > > lib ,> OK
2、crawl-
3、将crawl - -
4、修改crawl-,将
# accept hosts in
+^http://([a-z0-9]*\.)*/
# skip everything else
-.
5、cd /home/ysc/workspace/
,。,也可以直接生成
LUCENE索引,:
1、cd /home/ysc
2、wget ./apache/tomcat/tomcat-7/-
tomcat-
3、tar -xvf apache-tomcat-
4、在左部Package Explorer的 > Run As > Ant Build... > 选
中war target > Run
5、cd /home/ysc/workspace/
6、unzip nutch- -d nutch-
7、cp -r nutch- /home/ysc/apache-tomcat-
8、vi /home/ysc/apache-tomcat---INF/classes/nutch-
加入以下配置:
<property>
<name></name>
<value>/home/ysc/workspace/</value>
<description>
Path to root of crawl. This directory is searched (in
Nutch相关框架安装使用最佳指南 来自淘豆网www.taodocs.com转载请标明出处.