Nutch网页爬取总结
目录
前言 2
Nutch搭建过程[1] 2
1 准备工作 2
2 开始部署 2
安装linux系统 2
安装jdk 2
3
6
6
参考文献 9
Nutch爬取内容解析[1] 10
1 Nutch的输出文件 10
Crawldb 10
Linkdb 10
Segments 10
Indexes 12
Index 12
2 Nutch爬取内容解析 13
nutch的所有命令[2] 13
nutch的页面转存命令 19
nutch页面转存程序 21
参考文献 21
Nutch的爬取设置和配置文件 22
1 nutch的爬取深度 22
2 nutch的配置文件[2] 23
配置文件的优先级 23
配置文件详解 25
nutch抓取动态网页配置[3] 33
关于配置文件的一些细节问题[4][5] 34
参考文献 36
后序内容 37
前言
学****使用nutch的时间加起来能有一个月了,在网上也搜集了不少的资料,但是比较零散,所以想把这一个月使用它的全部过程、原理的讲解和中间的注意事项总结一下。主要汇总写网上已有的资料,方便查阅嘛。
Nutch搭建过程[1]
1 准备工作
我是在virtualbox下用虚拟机进行的nutch搭建,所需要的工具如下:
(1)Virtualbox最新版
(2)ubuntu-desktop最新版(以后会改为ubuntu-server)
(3)jdk-6u25-linux-
(4)apache-nutch--
2 开始部署
安装linux系统
首先安装VirtualBox,然后安装ubuntu,就是传统的安装方法。上传所用的包到linux系统~/tmp目录下,~表示用户目录。
安装jdk
终端命令
#cd ~/tmp
#chmod a+x jdk-6u23-linux-
#sh jdk-6u23-linux-
#mkdir /usr/java
#mv /usr/java/
配置用户环境变量[2]
这个比较重要,最开始nutch多次爬取失败,就是因为环境变量配置的不对。
最开始是在~/.bash_profile下配置,后来又在/etc/profile下配置,但是由于nutch有些命令需要管理员权限,当进入管理员权限时,上述配置的环境变量就不生效了,所以最后在/etc/environment下配置环境变量才好使。
在/etc/profile下配置环境变量(这个最好也配置上吧)。
终端命令
#sudu gedit /etc/profile
(在该文件中添加如下内容)
export JAVA_HOME=/usr/java/
export JRE_HOME=/usr/java/
export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH
在/etc/environment下配置环境变量。
终端命令
sudu gedit /etc/environment
(在该文件中添加如下内容)
JAVA_HOME=/usr/java/
JRE_HOME=/usr/java/
CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
PATH直接在该文件本来有的PATH后面添加即可
注意1:每段路径中间用冒号(:)分开,别忘记了那个点(.)
注意2:在尝试的过程中,environment文件内容的错误添加可能导致电脑无法进入,反复的停留在登陆界面。(我在最开始修改这个文件的时候遇到过),只需按crl+alt+F2,在命令行界面把错误的修改删除即可。
测试
终端命令
#java –version
输出
java version ""
Java(TM) SE Runtime Environment (build
nutch网页爬取总结 来自淘豆网www.taodocs.com转载请标明出处.