下载此文档

nutch爬虫系统分析报告.doc


文档分类:研究报告 | 页数:约58页 举报非法文档有奖
1/58
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/58 下载此文档
文档列表 文档介绍
Nutch分析1 Nutch简介 nutch体系结构 22 抓取部分 爬虫的数据结构及含义 抓取目录分析 抓取过程概述 抓取过程分析 inject方法 generate方法 fetch方法 parse方法 update方法 invert方法 index方法 dedup方法 merge方法 303 配置文件分析 nutch- <!--fileproperties--> <!--HTTPproperties--> <!--FTPproperties--> <!--webdbproperties--> <!--generateproperties--> <!--fetcherproperties--> <!--indexerproperties--> <!--indexingfilterpluginproperties--> <!--analysisproperties--> <!--searcherproperties--> <!--URLnormalizerproperties--> <!--mimeproperties--> <!--pluginproperties--> <!--parserproperties--> <!--urlfilterpluginproperties--> <!--scoringfiltersproperties--> <!--clusteringextensionproperties--> <!--ontologyextensionproperties--> <!--query-basicpluginproperties--> <!--monspluginproperties--> <!--query-morepluginproperties--> <!--microformats-reltagpluginproperties--> <!--language-identifierpluginproperties--> <!--.--> <!--responsewriterproperties--> regex- regex- 总结 594 参考资源 59Nutch简介nutch体系结构抓取部分爬虫的数据结构及含义爬虫系统是由Nutch的爬虫工具驱动的。并且把构建和维护一些数据结构类型同一系列工具关联起来:包括webdatabase、一系列的segment和index。接下来我们将详细描述他们。三者的物理文件分别存储在爬行结果目录下的crawldb文件夹内,segments文件夹和index文件夹内。那么三者分别存储的信息是什么呢?Webdatabase,也叫WebDB,其中存储的是爬虫所抓取网页之间的链接结构信息,它只在爬虫Crawler工作中使用而和Searcher的工作没有任何关系。WebDB内存储了两种实体的信息:page和link。Page实体通过描述网络上一个网页的特征信息来表征一个实际的网页,因为网页有很多个需要描述,WebDB中通过网页的URL和网页内容的MD5两种索引方法对这些网页实体进行了索引。Page实体描述的网页特征主要包括网页内的link数目,抓取此网页的时间等相关抓取信息,对此网页的重要度评分等。同样的,Link实体描述的是两个page实体之间的链接关系。WebDB构成了一个所抓取网页的链接结构图,这个图中Page实体是图的结点,而Link实体则代表图的边。一次爬行会产生很多个segment,每个segment内存储的是爬虫Crawler在单独一次抓取循环中抓到的网页以及这些网页的索引。Crawler爬行时会根据WebDB中的link关系按照一定的爬行策略生成每次抓取循环所需的fetchlist,然后Fetcher通过fetchlist中的URLs抓取这些网页并索引,然

nutch爬虫系统分析报告 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数58
  • 收藏数0 收藏
  • 顶次数0
  • 上传人w3332654
  • 文件大小339 KB
  • 时间2020-04-06