下载此文档

基于微簇的k—dmeans聚类算法改进——张昊pdf（可编辑）.doc

文档分类：IT计算机 | 页数：约11页举报非法文档有奖

1/11

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/11 下载此文档

文档列表 文档介绍

基于微簇的K—Dmeans聚类算法改进——张昊PDF(可编辑)基于微簇的K—Dmeans聚类算法改进——张昊PDF联盟论坛摇摇摇摇摇摇摇摇摇摇2013年第3期摇摇摇摇摇摇摇摇摇摇摇摇摇基于微簇的K-Dmeans聚类算法改进*张摇昊摘摇要:在现有的分布式聚类算法中普遍都存在着聚类效率较低且不能有效的保护数据隐私问题。本文针对K-Dmeans算法中原始数据聚类效果不佳的情况,对此算法进行改进。即提出了中心-边缘的系统框架结构,同时在数据集边缘节点进行数据聚类时提出了微簇概念,即边缘节点的数据按照规律进行二次细化聚类,再将聚类结果直接传输给中心节点,由中心节点对再次聚类的数据进行整合。简化了数据在各站点传输时的网络开销,同时保证了各站点数据的独立性,借此提高了数据隐私保护能力。关键词:K-Dmeans算法、聚类、分布式聚类、微簇一、概述二、相关概念[4-7]伴随信息化的不断发展,数据挖掘领域越来定义1摇k-means算法[1-2]越被人们重视。所谓数据挖掘就是从大量的、K-means算法是将数据集分为k组,k组数据不完全的、有噪声的、模糊的、随机的数据中,提取代表数据集分为k类。每个类随机抽取一个中心潜在有用信息知识的过程。而如今数据挖掘技术点,通过数据反复迭代,重新整合改变原有的分组面对海量的数据信息如何提高数据处理效率成为情况,使得在原有的数据分组不断优化,最终中心越来越多研究者面临的课题。利用聚类将大量数点不再发生变化。聚类标准函数E收敛。[3]据分割可以大大简化数据挖掘的过程。聚类是准则函数E定义为k将大量待处理数据按照规律分为若干个簇,使每E椰p-M椰1移移i个簇内的数据具备高度相似性,而簇间数据则存i1p沂Ci在较大相异过程。较常用的聚类算法有层次聚类摇摇其中:p为类C的空间点;M为类C数据对象iii算法、分割聚类算法、基于密度算法、基于网格的平均值。[8]算法。定义2摇k-Dmeans算法本文主要针对分割聚类算法中的K-DmeansK-Dmeans算法其实就是分布式K-means算[6]算法进行改进。文献中提出传统的K-Dmeans法,其指导思想是:任意选择数据集中一点作为主算法,各站点间需要传递大量数据,既破坏了各站站点,利用k-means算法将其换分为k个簇,分割点的独立性,使网络开销增加,同时不同数据簇之后各个簇中心点被主站点广播给其余k-1个子站间的界限在数据传输过程中变的模糊,导致数据点,通过数据的迭代将计算后的各样本点并入距聚类的效率降低。鉴于此,在K-Dmeans算法的离最近的中心点,并将不属于自身的样本对象传基础上,本文提出了中心-边缘化数据节点的框架递给其他簇中心点,直到全局函数E收敛。[3]结构,引入微簇的概念,lass_id规律进行二次细化聚类,再将聚类结果传输给中微簇就是对同一个集合中的多维数据进行一心节点,由中心节点对再次聚类的数据进行整合。种整体表示方式。它的数据结构是:借此提高系统处理数据的能力。xCF1,n,class_id*张昊,男,铜陵学院数学与计算机学院讲师。17联盟论坛摇摇摇摇摇摇摇摇摇摇2013年第3期摇摇摇摇摇摇摇摇摇摇摇摇摇x摇摇CF1表示为该微簇的中心,所有数据在不同D1C1维度上的平均值均包含在其中;n为该微簇中的数据数量;class_id为该微簇的ID。C2D2SPC摇摇三、基于微簇的K-Dmeans聚类算法的改进CiDi摇摇K-Dmeans算法较K-means算法有所改进,但是任然存在各站点之间传递数据占用大量网络资图2摇基于微簇的算法过程图源,数据簇间界限不明,同时数据传递过程中还会二原始数据在边缘节点上的聚类过程泄露内部数据。鉴于此,在K-Dmeans的基础上在分布式聚类环境中,考虑到各节点的差异引入微簇的概念,不仅可以大大提高数据聚类效性,一般在原始数据聚类上会存在时间差异,一般率,也可减少隐私数据泄露的可能。采用K-Dmeans算法进行数据聚类,然而K-一系统框架结构Dmeans算法中选取的节点数目越少,会造成聚类本文从另一个角度诠释K-Dmeans算法的系的结果不稳定,而且在每个边缘节点上都存在这统框架,将主站点看做中心点,其他被划分好的k聚类不稳定的累加效果,导致最终传输到中心节个簇的中心点被看作边缘点,这样系统框架看做点的数据不准确。此时在边缘节点引入微簇,对为中心???边缘结构。原始数据进行聚类,可以避免这种情况的发生。该系统框架中,每个边缘节点只处理该节点定理1摇聚类产生的微簇是类的子集附近的局部数据并对处理好的数据结果进行分利用反证法,假设一个数据集中存在n个类:析,再将分析结果直接提交给中心点,在中心点进P,P,…P,该类与C类相邻。则P,P,…P中12n12n行二次处理和分析,最终得到数据聚类的结果,系所有原始数据点都距C类较远。而P,P,…

基于微簇的k—dmeans聚类算法改进——张昊pdf（可编辑）来自淘豆网www.taodocs.com转载请标明出处.