下载此文档

聚类分析.doc


文档分类:IT计算机 | 页数:约10页 举报非法文档有奖
1/10
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/10 下载此文档
文档列表 文档介绍
合肥学院
2015-2016第二学期
《多元统计分析》课程论文
论文题目聚类分析
姓名陈毅
学号 1307021036
专业数学与应用数学(1)
成绩

聚类分析
摘要:本论文为了研究南部海洋1970-1985年这15年20个站点的平均每年每月的表面空气温度数据分为几类最合适。用南部海洋1970-1985年20个站点的平均每年每月的表面空气温度数据中,所有数据两两数据间距离的平均作为类间距离,使用聚类分析中的最长距离法,运用SAS软件,从而得出相应的数据,分析数据即确定了南部海洋1970-1985年这15年20个站点的平均每年每月的表面空气温度数据分为几类最合适。
关键词:聚类分析最长距离法 SAS软件分类
一、聚类分析理论
1、数据的变换方法
(1)中心变换
变换称为中心化变换。它是一种标准化处理方法,变换后数据的均值为0,而协方差阵不变,即协差阵为,其中。中心化变换是一种方便地计算样本协差阵的变换。
(2)标准化变换
变换
称为标准化变换,变换后的数据,每个变量的样本均值为0,标准差为1,而且标准化变换后的数据与变量的量纲无关。
(3)对数变换
变换
称为对数变换,它可将具有指数特征的数据结构化为线性数据结构
此外,还有平方根变换,立方根变换等。它们的主要作用是把非线性数据结构变为线性数据结构。
称变换
(4)极差标准化变换
称变换
称为极差标准化变换,变换后的数据,每个变量的样本均值为0,极差为1,且,在以后的分析计算中可以减少误差的产生;同时变换后的数据也是无量纲的量。

称变换
为极差正规化变换。变换后的数据;极差也为1,同时变换后的数据也是无量纲的量。
2、距离的定义
(Minkowski)距离

为闵科夫斯基距离。
(1)绝对值距离:在上式中,当q=1时的一阶闵科夫斯基距离为

称它为绝对值距离。
(2)欧氏距离:取,就可以得到二阶闵科夫斯基距离为
称它为欧氏距离。
3、系统聚类法的思想
(1)定义样品间的距离(或相似系数)和类与类之间的距离;
(2)将n个样品各自自成一类,这时类间的距离与样品间的距离是等价的;
(3)然后将距离最近的两类合并,并计算新类与其他的类间距离,再按最小距离准则并类。这样每次缩小一类,直到所有的样品都成一类为止。这个并类过程可以用谱系聚类图形像地表达出来
4、系统聚类的步骤
(1)数据变换:可以使用上节介绍的方法对数据进行变换。数据变换目的是为了便于比较、计算上的方便或改变数据的结构。选择试题样品间距离的定义(如欧氏距离)及度量类间距离的定义。
(2)计算n个样品两两间的距离,得样品间的距离矩阵。
(3)一开始n样品各自构成一类,类的个数个类:
,此时类间距离就是样品间的距离(即)然后对步骤执行并类过程(4)和(5).
(4)每次合并类间距离最小的两类为一新类,此时类的总个数k减少到1类,即。
(5)计算新类与其他类的距离,得到新的距离矩阵,若合并后类的总个数k仍大于1,重复(4)和(5)步,直到类的总个数为1为止。
(6)画谱系聚类图。
(7)决定分类的个数及各类的成员。
二、问题提出与分析
现有南部海洋1970-1985年20个站点的平均每年每月的表

聚类分析 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数10
  • 收藏数0 收藏
  • 顶次数0
  • 上传人wz_198613
  • 文件大小306 KB
  • 时间2018-10-14