下载此文档

聚类分析ppt.ppt


文档分类:IT计算机 | 页数:约197页 举报非法文档有奖
1/197
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/197 下载此文档
文档列表 文档介绍
第06章 聚类分析
1
聚类分析的基本思想及意义
聚类分析是研究分类问题的多元数据分析方法
聚类分析是数值分类学的一分支
在经济学中有广泛的应用背景
城镇居民收入分析
产品质量指标
等等
2
聚类分析的基本思想及意义
聚类分析的基本思想是在样品之间定义距离,在变量之间定义相似系数,距离或相似系数代表样品或变量之间的相似程度。按相似程度的大小,将样品(或变量)逐一归类,关系密切的类聚集到一个小的分类单位,然后逐步扩大,使得关系疏远的聚合到一个大的分类单位,直到所有的样品(或变量)都聚集完毕,形成一个表示亲疏关系的谱系图,依次按照某些要求对样品(或变量)进行分类。
3
聚类分析的基本思想及意义
多元数据形成数据矩阵,在这个数据矩阵中,共有n个样品
(列向),p个指标(行向)。聚类分析有两种类型:按样品聚类或按变量(指标)聚类。
4
聚类分析与判别分析的区别和联系
聚类分析一般寻求客观的分类方法。在进行聚类之前,对总体到底有几类类型并不知道(究竟分几类较为合适需从计算中探索调整)。
判别分析则是在总体类型划分已知,在各总体分布或来自总体训练样本基础上,对当前的新样本判定它们属于哪个总体。
联系:例如当我们对研究的多元数据的特征不熟悉,就要先进行聚类分析,才能考虑判别分析问题。
5
聚类分析的方法
重点介绍
谱系聚类法
快速聚类法
6
样品间的相似性度量-距离
设有n个样品的多元观测数据:

每个样品可看成p元空间的一个点,n个样品组成p元空间的n个点。
我们用各点之间的距离来衡量各种样品之间的相似程度(或靠近程度)。
7
样品间的相似性度量-距离
设 是样品 之间的距离,一般要求它满足下列条件:
在聚类分析中,有些距离不满足3),我们在广义的角度上仍称它为距离。
8
聚类分析中的常用距离
欧式距离
令 , 形成一个距离矩阵
其中 。
9

为研究辽宁、浙江、河南、甘肃、青海5省份1991年城镇居民生活消费规律,需要利用调查资料对这5个省分类。指标变量共8个,含义如下:
x1:人均粮食支出, x2:人均副食支出,
x3:人均烟酒茶支出, x4:人均其他副食支出,
x5:人均衣着商品支出, x5:人均日用品支出,
x7:人均燃料支出, x8:人均非商品支出。
。将每个省份的数据看成一个样
品,计算样品之间的欧式距离矩阵。
10

聚类分析ppt 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数197
  • 收藏数0 收藏
  • 顶次数0
  • 上传人精品小课件
  • 文件大小3.10 MB
  • 时间2021-03-02