下载此文档

Ch9.1-基于MapReduce的K-Means聚类并行算法ppt课件.ppt


文档分类:IT计算机 | 页数:约37页 举报非法文档有奖
1/37
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/37 下载此文档
文档列表 文档介绍
——K-Means聚类算法南京大学计算机科学与技术系主讲人:黄宜华,肖韬2011年春季学期MapReduce海量数据并行处理鸣谢:本课程得到Google公司(北京)---:数据挖掘是通过对大规模观测数据集的分析,寻找确信的关系,并将数据以一种可理解的、且利于使用的新颖方式概括数据的方法。 数据挖掘的特征之一:海量数据 ——Smalldatadoesnotrequiredatamining,largedatacauses problems ——以上摘自黎铭的《数据挖掘》课件可见,数据挖掘是并行计算中值得研究的一个领域定义:将给定的多个对象分成若干组,组内的各个对象是相似的,组间的对象是不相似的。进行划分的过程就是聚类过程,划分后的组称为簇(cluster)。几种聚类方法:基于划分的方法;基于层次的方法;基于密度的方法;......给定N个对象,构造K个分组,每个分组就代表一个聚类。这K个分组满足以下条件:每个分组至少包含一个对象;每个对象属于且仅属于一个分组;K-Means算法是最常见和典型的基于划分的聚类方法输入:待聚类的N个数据点,期望生成的聚类的个数K输出:K个聚类----算法描述-------------------------选出K个点作为初始的clustercenterLoop:对输入中的每一个点p:{计算p到各个cluster的距离;将p归入最近的cluster;}重新计算各个cluster的中心如果不满足停止条件,gotoLoop;否则,停止初始数据K=2选择初始中心------------------------------------------------------------------------------------------------------------------------------------------------第1次聚类:计算距离++第1次聚类:归类各点------------------------------------------------------------------------重新计算聚类中心++第2次聚类:计算距离------------------------------------------------------------------------第2次聚类:归类各点++++聚类无变化,迭代终止第i轮迭代:生成新的clusters,并计算clustercenters第i+1轮迭代:根据第i轮迭代中生成的clusters和计算出的clustercenters,进行新一轮的聚类如此不断迭代直到满足终止条件

Ch9.1-基于MapReduce的K-Means聚类并行算法ppt课件 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数37
  • 收藏数0 收藏
  • 顶次数0
  • 上传人rsqcpza
  • 文件大小834 KB
  • 时间2020-09-22