下载此文档

nutch网页爬取总结.docx


文档分类:IT计算机 | 页数:约37页 举报非法文档有奖
1/37
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/37 下载此文档
文档列表 文档介绍
Nutch网页爬取总结
目录
前言 2
Nutch搭建过程[1] 2
1 准备工作 2
2 开始部署 2
安装linux系统 2
安装jdk 2
3
6
6
参考文献 9
Nutch爬取内容解析[1] 10
1 Nutch的输出文件 10
Crawldb 10
Linkdb 10
Segments 10
Indexes 12
Index 12
2 Nutch爬取内容解析 13
nutch的所有命令[2] 13
nutch的页面转存命令 19
nutch页面转存程序 21
参考文献 21
Nutch的爬取设置和配置文件 22
1 nutch的爬取深度 22
2 nutch的配置文件[2] 23
配置文件的优先级 23
配置文件详解 25
nutch抓取动态网页配置[3] 33
关于配置文件的一些细节问题[4][5] 34
参考文献 36
后序内容 37
前言
学****使用nutch的时间加起来能有一个月了,在网上也搜集了不少的资料,但是比较零散,所以想把这一个月使用它的全部过程、原理的讲解和中间的注意事项总结一下。主要汇总写网上已有的资料,方便查阅嘛。
Nutch搭建过程[1]
1 准备工作
我是在virtualbox下用虚拟机进行的nutch搭建,所需要的工具如下:
(1)Virtualbox最新版
(2)ubuntu-desktop最新版(以后会改为ubuntu-server)
(3)jdk-6u25-linux-
(4)apache-nutch--
2 开始部署
安装linux系统
首先安装VirtualBox,然后安装ubuntu,就是传统的安装方法。上传所用的包到linux系统~/tmp目录下,~表示用户目录。
安装jdk
终端命令  
#cd  ~/tmp  
#chmod a+x  jdk-6u23-linux-  
#sh jdk-6u23-linux-  
#mkdir /usr/java  
#mv   /usr/java/  
配置用户环境变量[2]
这个比较重要,最开始nutch多次爬取失败,就是因为环境变量配置的不对。
最开始是在~/.bash_profile下配置,后来又在/etc/profile下配置,但是由于nutch有些命令需要管理员权限,当进入管理员权限时,上述配置的环境变量就不生效了,所以最后在/etc/environment下配置环境变量才好使。
在/etc/profile下配置环境变量(这个最好也配置上吧)。
终端命令  
#sudu gedit /etc/profile  
(在该文件中添加如下内容)
export JAVA_HOME=/usr/java/  
export JRE_HOME=/usr/java/  
export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH  
export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH
在/etc/environment下配置环境变量。
终端命令  
sudu gedit /etc/environment
(在该文件中添加如下内容)
JAVA_HOME=/usr/java/  
JRE_HOME=/usr/java/  
CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH  
PATH直接在该文件本来有的PATH后面添加即可
注意1:每段路径中间用冒号(:)分开,别忘记了那个点(.)
注意2:在尝试的过程中,environment文件内容的错误添加可能导致电脑无法进入,反复的停留在登陆界面。(我在最开始修改这个文件的时候遇到过),只需按crl+alt+F2,在命令行界面把错误的修改删除即可。
测试
终端命令  
#java –version  
输出
java version ""
Java(TM) SE Runtime Environment (build

nutch网页爬取总结 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数37
  • 收藏数0 收藏
  • 顶次数0
  • 上传人rdwiirh
  • 文件大小396 KB
  • 时间2021-02-24