下载此文档

基于Hadoop的数据挖掘算法并行化研究.pdf


文档分类:IT计算机 | 页数:约63页 举报非法文档有奖
1/63
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/63 下载此文档
文档列表 文档介绍
国内图书分类号:TP391 国际图书分类号:621 西南交通大学研究生学位论文密级:公开年姓申请学位级别王堂亟± 专二零一五年五月万方数据 Classified Index:TP39 :62l Southwest Jiaotong University Master Degree Thesis Parallel Data Mining Algorithms Research of Hadoop Grade:Postgraduate 2012 Candidate:Wei Zhao Academic Degree Applied for:Master puter Application Technology Supervisor:Wen DengMin May,2015 万方数据西南交通大学学位论文版权使用授权书本学位论文作者十分清楚学校有关保留、使用学位论文条例,同意西南交通大学保留本论文并向国家有关部门或机构提供本文的复印件和电子版,允许本论文被查阅和借阅。我授权西南交通大学能将本论文的全部的或部分的内容收编进有关的数据库进行检索,可以用复制或扫描等手段保存和汇编本学位论文。本学位论文属于 ,在年解密后适用本授权书; ∥使用本授权书。(请在以上方框内打“4”) 学位论文作者签名:起日期:乙口1 伤 S、:1口}导、s~.2 1 万方数据西南交通大学硕士学位论文主要工作(贡献)声明本人在学位论文中所做的主要工作或贡献如下: (一)对数据挖掘中的聚类和分类的基本算法进行了解和分析,特别对Kmeans算法和Random Forest算法进行研究和分析,并介绍了现今对这两个算法的一些改进方案。(二)对Hadoop平台的相关技术进行了研究,详细剖析了Hadoop的HDFS、Yam、 MapReduce技术架构。(三)在Hadoop平台上实现了Canopy Kmeans并行算法,解决了Kmeans算法的两个问题:初始聚类中心选择性问题和聚类数目确定性问题。并通过实验证实改进后的算法在集群上具有较好的聚类效果和运行效率,较高的加速比和扩展性。(四) Random Forest(SRF)并行算法,影响Random Forest算法分类效果的三个主要因素是:森林中树的数量,随机属性特征的选择,构建的决策树之间的相关性。针对这些问题提出了SRF算法,使构造的森林具有较高的分类性能,通过实验证实改进的算法具有较好的分类性能,在集群上具有较高的加速比和扩展性。本人郑重声明:所呈交的学位论文,是在导师指导下独立进行研究工作所得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中作了明确说明。本人完全了解违反上述声明所引起的一切法律责任将由本人承担。学位论文作者签名: 日期: t 乍弘瓠w 万方数据西南交通大学硕士研究生学位论文第1页摘要随着移动互联网,物联网,社交网络的潮流席卷全球,全球范围内产生的数据量迅猛增长,显然我们已步入大数据时代,同时数据类型已涵盖了文本、图像、视频、语音等绝大部分非结构化数据。如何从大数据中快速获取知识成为了我们当前需要处理主要问题。数据挖掘,是一门融合了统计学、数据库、机器学****人工智能等多领域的综合性学科。传统的数据挖掘算法大多在单机上串行运行,由于单机内存、计算能力等缘故, 将浪费大量的时间执行作业,效率低下且聚类效果也将有所降低,以致无法适应大规模数据的挖掘工作。为了提高数据挖掘对大规模数据的处理能力,提出了分布式计算技术, 将数据集划分到多个机器节点上处理,再将处理结果汇总。这样可以利用多个节点的计算能力高效的处理大规模数据。Hadoop是一个分布式计算框架,提供了HDFS,Yam、 MapReduce核心组件及一些配套的组件,已广泛用于互联网公司的云计算平台中。本文通过研究数据挖掘中的聚类和分类,对K1Tleans和Random Forest算法的不足进行了改进,提出了Canopy 和算法, Select attrRandom Forest(SRF) 研究内容如下: (一)对数据挖掘的中聚类和分类的基本算法进行了解和分析,特别对Kmeans算法和Random Forest算法进行研究和分析,并介绍了现今对这两个算法的一些改进方案。(二)对Hadoop平台的相关技术进行了研究,详细剖析了Hadoop的HDFS、Yam、 MapReduce技术架构。(三)在Hadoop平台上实现了Canopy Kmealls并行算法,解决了Kmeans算法的两个问题:初始簇类中心选择性问题和簇类数目确定性问题。并通过实验证实改进后的

基于Hadoop的数据挖掘算法并行化研究 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数63
  • 收藏数0 收藏
  • 顶次数0
  • 上传人薄荷牛奶
  • 文件大小3.28 MB
  • 时间2016-08-04