下载此文档

K均值聚类解析总结计划.docx


文档分类:金融/股票/期货 | 页数:约7页 举报非法文档有奖
1/7
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/7 下载此文档
文档列表 文档介绍
K均值聚类解析总结计划.docx精品文档
精品文档
1
精品文档
.
1案例题目:
选取一组点(三维或二维),在空间内绘制出来,之后根据
K均值聚类,
把这组点分为n类。
此例中选取的三维空间内的点由均值分别为
(0,0,0),(4,4,4),(-4,4,-4)

3
0
0
0
0
0
3
0
0
协方差分别为0
3
0,
0
3
0
,0
3
0的150个由mvnrnd函数随机
0
0
3
0
0
3
0
0
3
生成。
原理运用与解析:

聚类分析是根据“物以类聚”的道理,对样本或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样本,要求能合理地按各自的特性进行合理的分类。对于所选定的属性或特征,每组内的模式都是相似的,而与其他组的模式差别大。一类主要方法是根据各个待分类模式的属性或特征相似程度进行分
类,相似的归为一类,由此将待分类的模式集分成若干个互不重叠的子集,另一类主要方法是定义适当的准则函数运用有关的数学工具进行分类。由于在分类中不需要用训练样本进行学****和训练,故此类方法称为无监督分类。
聚类的目的是使得不同类别的个体之间的差别尽可能的大,而同类别的个体之间的差别尽可能的小。聚类又被称为非监督分类,因为和分类学****相比,分类学****的对象或例子有类别标记,而要聚类的例子没有标记,需要由聚类分析算法来自动确定,即把所有样本作为未知样本进行聚类。因此,分类问题和聚类问题根本不同点为:在分类问题中,知道训练样本例的分类属性值,而在聚类问题中,需要在训练样例中找到这个分类属性值。
聚类分析的基本思想是认为研究的样本或变量之间存在着程度不同的相似
性(亲疏关系)。研究样本或变量的亲疏程度的数量指标有两种:一种叫相似系
数,性质越接近的样本或变量,它们的相似系数越接近 1或-1,而彼此无关的变
量或样本它们的相似系数越接近 0,相似的为一类,不相似的为不同类。另一种
叫距离,它是将每一个样本看做 p维空间的一个点,并用某种度量测量点与点之
间的距离,距离较近的归为一类,距离较远的点应属于不同的类。

..
精品文档
精品文档
7
精品文档
.
动态聚类方法、。具体作法
是:先粗略地进行预分类,然后再逐步调整,直到把类分得比较合理为止。这种
分类方法较之系统聚类法,具有计算量较小、占用计算机存贮单元少、方法简单等优点,所以更适用于大样本的聚类分析,是一种普遍被采用的方法。这种方法具有以下三个要素:
选定某种距离度量作为样本间的相似性度量;
确定某种可以评价聚类结果质量的准则函数;
给定某个初始分类,然后用迭代算法找出使得准则函数取极值的最好聚类结果。
动态聚类法在计算迭代过程中,类心会随着迭代次数进行修正和改变。动态聚类法的基本步骤:
选取初始聚类中心及有关参数,进行初始聚类。
计算模式和聚类的距离,调整模式的类别。
计算各聚类的参数,删除,合并或分裂一些聚类。
从初始聚类开始,运用迭代算法动态地改变模式的类别和聚类的中心,使准则函数取极值或设定的参数达到设计要求时停止。
-均值聚类算法的思

K均值聚类解析总结计划 来自淘豆网www.taodocs.com转载请标明出处.