1/19
文档分类:IT计算机

基于Nutch的网络爬虫分块技术研究.ppt


下载后只包含 1 个 PPT 格式的文档,里面的视频和音频不保证可以播放,查看文件列表

特别说明:文档预览什么样,下载就是什么样。

下载所得到的文件列表
基于Nutch的网络爬虫分块技术研究.ppt
文档介绍:
基于Nutch的主题爬虫分块技术研究
报告人:
窃智剥趋宪啦闯瑟患盔佰乓桶娠樊憨铡械寝炔耪锗牟形吐屹湿果笆蜀借娃基于Nutch的网络爬虫分块技术研究基于Nutch的网络爬虫分块技术研究

提 纲
一、课题研究背景及意义
二、研究的内容及目标
三、课题进度安排
究公可幂食渴蓑罢景愁哼鲤勿腐族央屑汲这晨叶仗屉划莲貌树裤悠居噶述基于Nutch的网络爬虫分块技术研究基于Nutch的网络爬虫分块技术研究

课题研究背景及意义
一是Web信息资源呈几何数级增长,搜索引擎无法索引所有页面;
二是Web信息资源的动态变化,搜索引擎无法保证对信息的及时更新;
三是传统的搜索引擎不能满足人们对个性化信息检索服务的日益增长的需要。
面对这些挑战,各类适应特定人群需要的主题搜索引擎应运而生。
网络爬行器已被网络搜索引擎广泛使用,它是网络搜索引擎系统中最重要的一个执行单元。
举膳祈绒抽芝望蝶僻腕恨呆载辉皆囱疲倡鄂勤灭歹绽佐号之汝摄面曼魔家基于Nutch的网络爬虫分块技术研究基于Nutch的网络爬虫分块技术研究

显然,主题相关信息的搜集是主题爬行器的核心。
因此,如何快速爬取出准确的主题相关的信息成为数据挖掘领域研究人员面临的更现实的问题。
仕裸遥线毛咳频兆嚷机躯噪磕扇邻慈抛瓜液捕墙氏康豆萧警厦肘凄嘉滥贵基于Nutch的网络爬虫分块技术研究基于Nutch的网络爬虫分块技术研究

提 纲
一、课题研究背景及意义
二、研究的内容及目标
三、课题进度安排
胞狱咨塘沪竞磺勘该捎胡砂捎毡肿械碴蒙疾毫盯义班刊划氦毋颧芥绞挠夸基于Nutch的网络爬虫分块技术研究基于Nutch的网络爬虫分块技术研究

研究的内容及目标
本文的主要目的是在于主题(职位信息)网页爬取。
研究的内容:基于Nutch的搜索引擎主要包括数据抓取、数据索引处理和数据查询,本文主要工作放在抓取部分的研究和改进上。
达到的目标:
1、提高抓取网页并进行主题判别的速度---系统能够被 用户认可的关键因素之一。
2、主题判别的准确度。
巩秆喳窑郴痉初耳店禹茧铝度匙杨雄僧民卖咕环仗脚浊瞧煎芍朗蓑鞠一泛基于Nutch的网络爬虫分块技术研究基于Nutch的网络爬虫分块技术研究

网页分块技术
为什么要使用分块技术。
复杂的网络环境和网页内容的多主题性给主题爬行过程带来了负面的影响,对于一个高相关性的内容块,由于整个网页其他非主题内容块的影响使其相关性也受到了削弱。在一些主要内容块的周围经常存在广告条、导航条、版权信息和一些没有实际意义的图片、链接等,这些内容无疑是对主题爬行的一种干扰。
骆腮澜霉谱魔隐伴吝浊末抓庭焚佩立边百韦盎豫阀擦轻易泊昏蚊握该大皖基于Nutch的网络爬虫分块技术研究基于Nutch的网络爬虫分块技术研究

目前许多网页并不表示单一的语义单元,单个网页往往也表达多个主题内容,如下图所示,是新浪bbs的一部分:

敌背着着摄耐增芭挛矽朔突攒训修钉悸赵寂耸禽浦够埋祁攒惦吊午宦顷驱基于Nutch的网络爬虫分块技术研究基于Nutch的网络爬虫分块技术研究

在这个页面中,网页作者把四个不相关的主题:房产、家居、汽车、旅游同时放在单个网页上,在视觉上四个主题突出,且相互独立,而各个主题块内部的内容却与本主题相关,并且点开其中任何一个超链接均会链入与本主题相关的网页。
因此,把网页进行分块,判断分块与预定主题(假设是求职信息)是否相关,提取出相关块中的链接,不断的执行抓取循环,就能使爬虫程序收集到与主题相关的网页,而不去采集与主题不相关的网页,进而减少爬虫的计算量,提高爬虫的效率。
磐对炙厂暇兢拾避伏漱鸵砸袱沃戳异沧伴傣营宛秧联冠剔焚簇耿欺靳搜炙基于Nutch的网络爬虫分块技术研究基于Nutch的网络爬虫分块技术研究

常用的分块算法
基于Dom树的分块
Dom是Document Object Model文档对象模型的缩写
DOM的节点是处理的基本单元,每个网页对应一个DOM树,通过对DOM树的遍历,可以对页面中每个元素进行处理。
例如有下面的HTML代码:


抡专倒墓痴乎拴传邪宜陡颂健赶蛆炼优倔串率钓脑嚼教牡笛恃淮已彤并睡基于Nutch的网络爬虫分块技术研究基于Nutch的网络爬虫分块技术研究
内容来自淘豆网www.taodocs.com转载请标明出处.
相关文档
非法内容举报中心
文档信息
  • 页数19
  • 收藏数0 收藏
  • 顶次数0
  • 上传人1314042****
  • 文件大小144 KB
  • 时间2021-01-16
文档标签