下载此文档

第五章聚类分析.ppt


文档分类:高等教育 | 页数:约35页 举报非法文档有奖
1/ 35
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/ 35 下载此文档
文档列表 文档介绍
第五章聚类分析
第一节什么是聚类分析
俗话说“物以类聚,人以群分”,在自然科学和社会科学等领域中,存在着大量的分类问题。比如,为了对我国独立核算工业企业经济效益进行分析,较好的做法是选取能反映经济效益的代表性指标,如:百元固定资产实现利税、资金利税率、全员劳动生产率等,根据这些指标进行分类,根据分类结果对企业的经济效益进行综合评价,就易于得出科学的分析结论。
聚类分析就是建立一种分类方法,将一批样品或变量(指标)按照它们在性质上的相似、疏远程度进行科学的分类。通常描述样品或变量间相似、疏远程度有两种思路;一是把每个样品看成是P维(变量的个数为p)空间的一个点,在p维坐标系中,确定点与点之间的某种距离;另一种是用某种相似系数来描述变量之间的相似或疏远程度。
聚类分析有:
1:Q型聚类分析和R型聚类分析。Q型聚类是对样品进行聚类,R型聚类是对变量进行聚类。
2:静态聚类和动态聚类法。
第二节距离和相似系数
距离和相似系数有各种各样的定义。这些定义与变量的类型有着非常密切的关系。
一、变量的类型
1、间隔尺度:变量是用连续的量来表示的,如长度、重量、速度,温度等。
2、顺序尺度:变量度量时不用明确的数值表示,而是用等级来表示,等级之间有次序关系;如产品分为一、二、三等。
3、名义尺度:变量度量时既没有数量表示,也没有次序关系,如物体有红、黄、蓝三种颜色;医学化验中的阴性和阳性,性别的男性和女性等。
下面给出具有间隔尺度变量的距离和相似系数的定义。
一、距离
设有n个样品,每个样品测得p项指标,其原始资料阵如下:









对样品分类常用的距离:
如果把n个样品(X中的n个行)看成是p维空间的n个点,则两个样品间相似程度可用
p维空间中两点的距离来度量,用
表示第i个样品点与第j个样品点之间的距离。
1、明考夫斯基(Minkowski)距离
当q=1时,
称为绝对值距离
当q=2时,
称为欧氏(Euclid)距离
当q=时,
Chebyshev距离
但它存在两方面的缺陷:
第一,它与各指标的量纲有关;第二,它没有考虑指标之间的相关性。
应先对各变量的数据进行标准化处理,然后用标准化后的数据计算距离。
2、马氏(Mahalanobis)距离
马氏距离既排除了变量之间相关性的干扰,而且还不受各变量计量单位的影响。
3、兰氏(Lance—Williams)距离

时,
但仍没有考虑指标间的相关性。由于它对大的异常值不敏感,故适用于高度偏斜的数据。
具有以下几个性质
对一切i,j
1.
2.
当且仅当第i个样品与第j个样品的各变量值相同
3.
对一切i,j
4.
对于一切i,j,k
如果把任何两个样品之间的距离都算出来后,可排列成矩阵D
根据D可对n个样品进行分类,距离近的点归为一类,距离远的点归为不同的类。
以上距离的定义均要求变量是间隔尺度的,如果使用的是有序尺度或名义尺度,则有相应的定义距离的方法。
例如:某高校举办了一个培训班,从学员的资料中得到这样4个变量:性别=(男、女),专业=(经济类,非经济类),职业=(教师,非教师),学历=(大学本科,大学本科以下),现有两名学员,其四个变量的取值分别为
二、相似系数
1、夹角余弦
这是受相似型的启发而来
A
B
C
D
i,j=1,2,…,p
2、相关系数
如果数据已标准化了,则变量之间的夹角余弦就是相关系数。
相似系数有下列性质
1.
对于一切的i,j ,当且仅当
为常数时,
2.
对于一切的i,j
变量之间常借助相似系数来定义距离,如令
如果把两两之间的相似系数都算出来后,可排列成矩阵
相似系数大的归为一类,相似系数小的归为不同的类。
第三节无量纲化方法
各样品或指标的观测值因量纲不同,或量纲虽相同,但数量级不同,直接用原始数据进行一系列计算就会突出那些绝对值大的变量的作用而削弱那些绝对值小的变量的作用,因此,在计算之前,应对原始数据进行无量纲处理。当对样品进行分析时,应按列进行无量纲处理.
1、标准化变换(标准差标准化)
其中:
特点:标准化后每一列变量是平均值为0,方差为1,且与变量的量纲无关。
2、极差标准化(极差正规化)
i=1,2,…,n
j=1,2,…,p
特点:经过变化后,每列变量的最大值为1,最小值为0,其余数据在0—1中间,且消除了量纲的影响。
3、功效系数法
功效系数法是利用特定的方法将每个指标的原始数据转化为用百分制表示的数值。这种方法不仅可以对每一指标进行直接比较,还可以解决不同性质的指标综合问题。
其步骤为:
(1)对每一个指标确定一个满意值和不允许值
(2)以满意值和不允许值的差额作

第五章聚类分析 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数 35
  • 收藏数 0 收藏
  • 顶次数 0
  • 上传人 企业资源
  • 文件大小 0 KB
  • 时间2011-12-12
最近更新