下载此文档

基于Spark的机器学习资料41、聚类算法:KMEANS原理介绍-2页.pdf


文档分类:IT计算机 | 页数:约2页 举报非法文档有奖
1/2
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/2 下载此文档
文档列表 文档介绍
聚类算法: KMEANS 原理介绍
一、 聚类介绍
聚类分析是一个无监督学****过程, 一般是用来对数据对象按照其特征属性进行分组, 经常被应用在客户分群、
欺诈检测、图像分析等领域。 K-means 应该是最有名并且最经常使用的聚类算法。
二、 算法介绍
KMeans 算法的基本思想是初始随机给定 K 个簇中心,按照最邻近原则把待分类样本点分到各个簇,然后按
照平均法重新计算各个簇的质心,从而确定簇心,一直迭代,知道簇心的移动距离小于某个给定的值。
K-means 算法是一个迭代式的算法,其运算过程如下:
1、 选择 k 个点作为初始聚类中心。( k 需要我们程序自己设置)
2、 计算其余所有点到聚类中心的距离,并把每个点划分到离它最近的聚类中心所在的聚类中。最常用的衡
量距离的函数式欧几里得距离,叫做欧式距离。
3、 重新计算每个聚类中所有点的平均值,并将其作为新的聚类中心点。
4、 重复 2, 3 步的过程,直至聚类中心不再发生变化,或者算法达到预定的迭代次数(程序自己设置),
又或者聚类中心的改变小于预定设定的阀值。
举个例子介绍:
从上图中,我们可以看到, A , B, C, D, E 是五个在图中点。而灰色的点是我们的种子点,也就是我们用来找
点群的点。有两个种子点,所以 K=2 。
K-Means 的算法如下:
1、随机在图中取 K (这里 K=2 )个种子点。
2、然后对图中的所有点求到这 K 个种子点的距离,假如点 Pi 离种子点 Si 最近,那么 Pi 属于 Si 点群。(上图
中,我们可以看到 A ,B 属于上面的种子点, C, D ,E 属于下面中部的种子点)
3、接下来,我们要移动种子点到属于他的“点群”的中心。(见图上的第三步)
4、然后重复第 2)和第 3)步,直到,种子点没有移动(我们可以看到图中的第四步上面的种子点聚合了 A ,
B, C,下面的种子点聚合了 D , E)。
三、 KMeans两个重要问题
1、 选择 K 值
K 的选择是 K-means 算法的关键, Spark MLlib 在 KMeansModel 类里提供了 computeCost 方法,该方法通过计
算所有数据点到其最近的中心点的平方和来评估聚类的效果。

基于Spark的机器学习资料41、聚类算法:KMEANS原理介绍-2页 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数2
  • 收藏数0 收藏
  • 顶次数0
  • 上传人冰冷暗雪
  • 文件大小100 KB
  • 时间2021-10-29