下载此文档

基于Spark的机器学习资料41、聚类算法：KMEANS原理介绍-2页.pdf

文档分类：IT计算机 | 页数：约2页举报非法文档有奖

1/2

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/2 下载此文档

文档列表 文档介绍

聚类算法： KMEANS 原理介绍
一、聚类介绍
聚类分析是一个无监督学****过程，一般是用来对数据对象按照其特征属性进行分组，经常被应用在客户分群、
欺诈检测、图像分析等领域。 K-means 应该是最有名并且最经常使用的聚类算法。
二、算法介绍
KMeans 算法的基本思想是初始随机给定 K 个簇中心，按照最邻近原则把待分类样本点分到各个簇，然后按
照平均法重新计算各个簇的质心，从而确定簇心，一直迭代，知道簇心的移动距离小于某个给定的值。
K-means 算法是一个迭代式的算法，其运算过程如下：
1、选择 k 个点作为初始聚类中心。（ k 需要我们程序自己设置）
2、计算其余所有点到聚类中心的距离，并把每个点划分到离它最近的聚类中心所在的聚类中。最常用的衡
量距离的函数式欧几里得距离，叫做欧式距离。
3、重新计算每个聚类中所有点的平均值，并将其作为新的聚类中心点。
4、重复 2， 3 步的过程，直至聚类中心不再发生变化，或者算法达到预定的迭代次数（程序自己设置），
又或者聚类中心的改变小于预定设定的阀值。
举个例子介绍：
从上图中，我们可以看到， A ， B， C， D， E 是五个在图中点。而灰色的点是我们的种子点，也就是我们用来找
点群的点。有两个种子点，所以 K=2 。
K-Means 的算法如下：
1、随机在图中取 K （这里 K=2 ）个种子点。
2、然后对图中的所有点求到这 K 个种子点的距离，假如点 Pi 离种子点 Si 最近，那么 Pi 属于 Si 点群。（上图
中，我们可以看到 A ，B 属于上面的种子点， C， D ，E 属于下面中部的种子点）
3、接下来，我们要移动种子点到属于他的“点群”的中心。（见图上的第三步）
4、然后重复第 2）和第 3）步，直到，种子点没有移动（我们可以看到图中的第四步上面的种子点聚合了 A ，
B， C，下面的种子点聚合了 D ， E）。
三、 KMeans两个重要问题
1、选择 K 值
K 的选择是 K-means 算法的关键， Spark MLlib 在 KMeansModel 类里提供了 computeCost 方法，该方法通过计
算所有数据点到其最近的中心点的平方和来评估聚类的效果。

基于Spark的机器学习资料41、聚类算法：KMEANS原理介绍-2页来自淘豆网www.taodocs.com转载请标明出处.