下载此文档

基于 hadoop海量数据分析系统设计与实现毕业论文.doc

文档分类：IT计算机 | 页数：约81页举报非法文档有奖

1/81

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/81 下载此文档

文档列表 文档介绍

该【基于 hadoop海量数据分析系统设计与实现毕业论文】是由【碎碎念的折木】上传分享，文档一共【81】页，该文档可以免费在线阅读，需要了解更多关于【基于 hadoop海量数据分析系统设计与实现毕业论文】的内容，可以使用淘豆网的站内搜索功能，选择自己适合的文档，以下文字是截取该文章内的部分文字，如需要获得完整电子版，请下载此文档到您的设备，方便您编辑和打印。西安电子科技大学学位论文创新性声明秉承学校严谨的学风和优良的科学道德,本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果;也不包含为获得西安电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切的法律责任。本人签名:日期西安电子科技大学关于论文使用授权的说明本人完全了解西安电子科技大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属西安电子科技大学。学校有权保留送交论文的复印件,允许查阅和借阅论文;学校可以公布论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存论文。同时本人保证,毕业后结合学位论文研究课题再撰写的文章一律署名单位为西安电子科技大学。(保密的论文在解密后遵守此规定)本学位论文属于保密,在年解密后适用本授权书。本人签名:日期导师签名:日期摘要随着互联网的不断发展,国内大型互联网公司业务的不断复杂化,分析核心数据成为了公司发展的关键点,但是公司内部的核心数据原始文件庞大,目前大部分是通过人工分析得出结论,因此分析处理海量数据成为亟待解决的问题。本文研究了海量数据处理的国内外现状,阐述了分布式MapReduce的编程思想,介绍了Hadoop的相关技术和HDFS文件系统,分析了企业的需求,使用了spring-mvc和hibernate等Web开发框架对系统进行了分层设计,将系统分成了展现层、业务逻辑层、数据对象实体层、底层数据层和原始资源层。然后对系统结构展开设计和实现,结合实际业务设计了分布式Hadoop计算模块、数据结果存储模块和业务系统逻辑模块三个模块,最后对各个模块进行了测试,实现海量数据分析系统。本文所做工作被用于大型互联网公司系统的开发。实践表明,采用本文所设计的系统后,提高了数据分析的效率,改变了人工计算海量数据的情况,实现了数据分析统计的高效性和集中性。关键词:HadoopMapReduce数据分析Abstract,,,,,-:viewlayer,businesslogiclayer,dataobjectlayer,,,eachmoduleistested,,:HadoopMapReduceDataAnalysis目录第一章绪论...........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................3第二章基于Hadoop的分布式技术........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................9第三章基于Hadoop的海量数据分析系统的目标应用...........................................................................................................................................................................................................................................................................................................................................................................................................................................18第四章基于Hadoop的海量数据分析系统的设计实现..........................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................39第五章基于Hadoop的海量数据系统的部署和测试..................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................................46第六章结束语.........................................................................................................................................................................................................................................................................................................47致谢.........................................................................................................................49参考文献.................................................................................................................51第一章绪论1第一章绪论本章首先阐述课题的背景和研究意义,接着介绍分布式技术的国内外研究现状,最后给出本文研究内容及章节安排。,特别是网络的普及,金融、通信等大众行业对信息的需求越来越高,亟待处理的数据量也越来越大。与此同时,人们对复杂查询操作能力的需求以及高性能联机事务处理能力也在不断提高。因此,如何存储计算海量数据成为当今的研究热点。当前单一节点服务器的计算能力已经达到了瓶颈,而现代大型企业的数据的异构性、复杂性和关联性非常强,数据量非常大,这样对服务器存储资源、计算资源都提出了较高的要求,因此,利用云计算的分布式技术获取网络中强大的计算存储资源,将消耗大量计算资源的复杂计算通过网络分布到多节点上进行计算,是当前一种高效的解决方案。国内大型互联网公司,随着它的业务一步一步增大拓宽,所采用的系统也越来越多,相应的,开发和维护这些系统的团队也就越来越复杂,甚至出现了几个团队共同维护一个系统的局面。由于公司内部的许多核心数据是必须要产生并且加以分析的,而众多的公司系统则对产生和分析数据造成了相当大的困难,一方面,大规模的数据需要强大的运算能力才能够加以分析,传统的单机处理已经不能够满足当前业务发展的需求,另一方面,众多的业务系统,使得众多数据的处理和分析更加困难,公司内部存在着手工分析分布式系统数据结果的现状不能够得到改善,工作效率严重受到影响。因此,企业迫切的需要一个可以大规模集中处理和分析展现数据的系统模式,统筹规划庞大的数据,实现高效处理。大规模数据的分析和计算,首要的问题就是庞大的计算量,分布式计算的通用的解决方案,用多个机器承载计算任务,优化任务的运算效率。但是分布式计算任务的实现中存在着一些问题,比如输入文件的优化处理和分布式任务的运行管理。所以,一种优化且良好封装的分布式框架,由底层封装文件调度、并行计算、容错处理等功能,用户进行分布式计算逻辑的设计,这样就可以优化传统的分布式任务流程。由谷歌公司研发的Map/Reduce编程模型应运而生。同时,Hadoop分布式框架实现了这个模型,有力的支持了这种新兴的分布式编程思想。另一方面,随着Web技术的飞速发展,基于Web的数据分析和管理系统能够集中统一的分析数据,并且在互联网上通过浏览器进行数据分析结果2基于Hadoop的海量数据分析系统的设计与实现的良好展现。这样就解决了人工分析大规模数据结果的弊端,为高效统一的数据分析展现提供了很好的解决途径。基于Hadoop的海量数据分析系统的意义在于:。Web数据分析系统可以通过规范可复用的流程对数据进行分析展现,它可以避免人工分析数据结果的弊端,从而节省人力物力、提高企业工作效率。2提高大规模数据的处理能力,基于Hadoop的数据分析和计算可以应对海量数据级别的任务,通过快速高效的运算能力,使得企业迅速得到数据分析的结果,为今后的发展提供了保障。,MapReduce编程模型。它的思想来源于一种函数式编程语言,名字叫做Lisp,这种编程语言由谷歌公司提出并首先应用于计算机集群。Hadoop框架的核心思想就是Map/Reduce。谷歌研发出了GFS等硬件模型来承载MapReduce模型。Map/Reduce是一个用于海量数据运算的编程模型,于此同时它也是一种高效的任务调度模型[1]。在2007年,谷歌对这个模型进行了更加深入的研发。谷歌公司以这种分布式编程规范作为基础,在互联网公司中渐渐地居于主导地位。Hadoop是在DougCutting等人带领下进行设计研发的,同时他被Apache基金会认可,并成为了其旗下的一个著名的开源项目,它基于Lucene和Nutch等早前开源框架,基本上实现了谷歌自己的文件系统和最新的分布式编程思想。在2004年,他们完成了Hadoop分布式文件系统并发布了最早的版本;2005年,他们进一步研发不断增大Hadoop集群的数量,最终使得Hadoop集群的稳定数量达到了20;2006年2月ApacheHadoop项目开始资助这种分布式开发平台的研发。

基于 hadoop海量数据分析系统设计与实现毕业论文来自淘豆网www.taodocs.com转载请标明出处.