下载此文档

聚类算法以Kmeans算法为例ppt课件.ppt


文档分类:IT计算机 | 页数:约16页 举报非法文档有奖
1/16
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/16 下载此文档
文档列表 文档介绍
聚类算法 --以K-means算法为例
安英博


分类是指将数据归于一系列已知类别之中的某个类的分类过程。分类作为一种监督学****方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足,尤其是在处理海量数据的时候。
聚类是根据客体属性对一系列未分类的客体进行类别的识别,把一组个体按照相似性归成若干类。聚类属于无监督学****br/>分类和聚类
在商业上,聚类可以帮助市场分析人员从消费者数据库中区分出不同的消费群体来,并且概括出每一类消费者的消费****惯。它作为数据挖掘中的一个模块,可以作为一个单独的工具来发现数据库中分布的一些深层的信息,并且概括出每一类的特点,或者把注意力放在某一个特定的类上做进一步的分析。
聚类分析的算法可以分为划分法、层次法、基于密度的方法、基于网格的方法、基于模型的方法。其中,最广泛使用的聚类算法k-means算法属于划分法。
聚类算法
给定一个有N个元组或者纪录的数据集,划分法将构造K个分组,每一个分组就代表一个聚类,K<N。而且这K个分组满足下列条件:
(1) 每一个分组至少包含一个数据纪录;
(2)每一个数据纪录属于且仅属于一个分组(某些模糊聚类算法中该条件可以放宽);
对于给定的K,算法首先给出一个初始的分组方法,以后通过反复迭代的方法改变分组,使得每一次改进之后的分组方案都较前一次好,而所谓好的标准就是:同一分组中的记录越近越好,而不同分组中的纪录越远越好。
划分法
k-means算法,也被称为k-均值或k-平均。
该算法首先随机地选择k个对象作为初始的k个簇的质心;然后对剩余的每个对象,根据其与各个质心的距离,将它赋给最近的簇,然后重新计算每个簇的质心;这个过程不断重复,直到准则函数收敛。通常采用的准则函数为平方误差和准则函数,即 SSE(sum of the squared error),其定义如下:
SSE是数据库中所有对象的平方误差总和,p为数据对象,mi是簇Ci的平均值。这个准则函数使生成的结果尽可能的紧凑和独立。
k-means算法
K-Means 的算法如下:
随机在图中取k(这里k=2)个种子点。
对图中的所有点求到这k个种子点的距离,假如点 Pi 离种子点 Si 最近,那么 Pi 属于 Si 点群。(上图中,我们可以看到A、B属于上面的种子点,C、D、E属于下面中部的种子点)
移动种子点到属于他的“点群”的中心。(见图上的第三步)
然后重复第2)和第3)步,直到种子点不再移动(图中的第四步上面的种子点聚合了A,B,C,下面的种子点聚合了D,E)。
从图中可以看到,A, B, C, D, E 是五个在图中点。而灰色的点是种子点,也就是我们用来找点群的点。有两个种子点,所以k=2。
举例概述
应用实例 ——中国男足近几年在亚洲处于几流水平?
下图是采集的亚洲15只球队在2006年-2010年间大型比赛的战绩(澳大利亚未收录)。数据做了如下预处理:对于世界杯,进入决赛圈则取其最终排名,没有进入决赛圈的,打入预选赛十强赛赋予40,预选赛小组未出线的赋予50。对于亚洲杯,前四名取其排名,八强赋予5,十六强赋予9,预选赛没出现的赋予17。
应用实例
1. 规格化数据
由于取值范围大的属性对距离的影响高于取值范围小的属性,这样不利于反映真实的相异度,因此聚类前,一般先对属性值进行规格化。所谓规格化就是将各个属性值按比例映射到相同的取值区间,来平衡各个属性对距离的影响。通常将各个属性均映射到[0,1]区间,映射公式为:
其中max(ai)和min(ai)表示所有元素项中第i个属性的最大值和最小值。

聚类算法以Kmeans算法为例ppt课件 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数16
  • 收藏数0 收藏
  • 顶次数0
  • 上传人yzhluyin9
  • 文件大小1.62 MB
  • 时间2018-09-27