下载此文档

模糊聚类分析.docx

文档分类：IT计算机 | 页数：约22页举报非法文档有奖

1/22

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/22 下载此文档

文档列表 文档介绍

目录
1引言: 2
2 理论准备: 2
模糊集合理论 2
(FCM) 3
加权模糊C均值聚类(WFCM) 3
3 聚类分析实例 4
4
4
4
确定聚类个数 5
借助clementine软件进行K-means聚类 6
样本在各类中集中程度 7
原始数据的分类结果 7
8
8
数据集的模糊C划分 8
模糊C均值聚类的目标函数求解方法 9
MATLAB软件辅助求解参数设置 9
10
10
FCM聚类分析 10
WFCM算法 13
WFCM聚类结果展示 13
14
15
16
5 参考文献 17
6 附录 17
模糊聚类与非模糊聚类比较分析
摘要:
聚类分析是根据样本间的相似度实现对样本的划分,属于无监督分类。传统的聚类分析是研究“非此即彼”的分类问题,分类结果样本属于哪一类很明确,而很多实际的分类问题常伴有模糊性,即它不仅仅是属于一个特定的类,而是“既此又彼”。因此为了探究模糊聚类与非模糊聚类之间聚类结果的差别,本文首先采用系统聚类方法对上市公司132支股票数据进行聚类,确定比较合理的聚类数目为11类,然后分别采用K-means聚类与模糊聚类方法对股票数据进行聚类分析,最终得出模糊聚类在本案例中比K-means聚类更符合实际。
关键字:模糊集合,K-means聚类,FCM聚类,WFCM聚类
1引言:
聚类分析是多元统计分析的方法之一,属于无监督分类,是根据样本集的内在结构,按照样本之间相似度进行划分,使得同类样本之间相似性尽可能大,不同类样本之间差异性尽可能大。传统的聚类分析属于硬化分,研究对象的性质是非此即彼的,然而,现实生活中大多数事物具有亦此亦彼的性质。因此传统的聚类分析方法往往不能很好的解决具有模糊性的聚类问题。为此,模糊集合理论开始被应用到分类领域,并取得不错成果。
本文的研究目的是通过对比传统聚类和模糊聚类的聚类结果,找出二者之间的不同之处,并说明两种聚类分析方法在实例中应用的优缺点。
2 理论准备:
模糊集合理论
模糊集合定义:设U 为论域,则称由如下实值函数μA :U ® [ 0,1 ], u ® μA ( u )所确定的集合 A 为U 上的模糊集合,而称μA 为模糊集合A 的隶属函数,μA ( u )称为元素 u 对于A 的隶属度。若mA(u) =1,则认为u完全属于A ; 若mA(u) =0,则认为u完全不属于A,模糊集合是经典集合的推广。
(FCM)
预先给定类别数c,把含有n个样本的数据集分成c个模糊类,用每个类的类别中心 Vj 代表该类,通过反复迭代运算,逐步降低目标函数的误差值,当目标函数收敛时,聚类完成。
目标函数:
(1)
约束条件:
(2)
μij∈0,1,∀i,j
加权模糊C均值聚类(WFCM)
算法过程与FCM类似,只是目标函数不同,WFCM算法考虑了各样本点对分类的重要性,在FCM算法中加入了权值pi,pi称为样本点的密度,本文中pi采用径向基函数方法来确定,当样本点x远离类中心xc时函数取值很小,此时该样本点对分类的重要性比较小。最常用的径向基函数是高斯核函数,形式为
(3)
目标函数:
(4)
约束条件:
μij∈0,1,∀ i,j, (5)
3 聚类分析实例

本文采用数据是上市公司2000-2003年共4年132支股票31个变量的数据进行聚类分析,表1是各变量所代表的含义。
表1 数据表示
X1
每股收益
X2
每股净资产
···
···
X30
净利润
X31
未分配利润

为了排除各因素变量的单位不同以及数量级间的悬殊差别带来的影响,尽可能的反映实际情况,需要对数据进行无量纲化处理。常用的处理方法有:标准化处理方法和极值处理方法。以下均采用“标准化”处理法。即取

(6)
(i=1,2,···,528;j=1,2,···,31)
其中xij*为标准观测值,其平均值和均方差分别为0和1。式中xj(j=1,2···31)为第j项指标原始观测值的平均值,sj(j=1,2,···,31)为第j项指标原始观测值的均方差。
确定聚类个数
如前文所述,聚类分析是无监督分类,分类之前并不知道

模糊聚类分析来自淘豆网www.taodocs.com转载请标明出处.