下载此文档

多元统计分析讲义(第二章).docx


文档分类:高等教育 | 页数:约19页 举报非法文档有奖
1/19
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/19 下载此文档
文档列表 文档介绍
Equati on Chapter 1 Secti on 1
注意电子文
档使用范围
《多元统计分析》
Multivariate Statistical Analysis
主讲:统计学院 薛伟
统计学院应用统计学教研室
School of Statistics
2004年9月
第二章 聚类分析
【教学目的】
让学生了解聚类分析的背景、基本思想;
掌握聚类分析的基本原理与方法;
掌握聚类分析的操作步骤和基本过程;
学会应用聚类分析解决实际问题。
【教学重点】
分类的统计量;
各种聚类分析方法的阐述。
§ 1 概述
一、什么是聚类分析
1•研究背景
在实际问题中,经常要遇到分类的问题。例如,在考古学中,要将某些古生物化石进行科学的分类; 在生物学中,要根据各生物体的综合特征进行分类;在经济学中,为了研究不同地区城镇居民的收入及消 费情况,往往需要划分为不同的类型去研究;在产品质量管理中,也要根据各产品的某些重要指标而将其 分为一等品,二等品等等。总之,科学的分类方法无论在自然科学,还是在社会科学中,都有着极其广泛 的应用。
俗语说,物以类聚、人以群分。但什么是分类的根据呢?比如,要想把中国的县分成若干类,就有很 多种分类法;可以按照自然条件来分,比如考虑降水、土地、日照、湿度等各方面;也可以考虑收入、教 育水准、医疗条件、基础设施等指标;既可以用某一项来分类,也可以同时考虑多项指标来分类。
随着人类社会的发展与科学技术的进步,对分类学的要求也越来越高。有时,只凭经验和专业知识还 不能进行科学有效的分类,于是数学这一有力的工具被逐渐引入到分类学中,形成了一门新兴的学科一一 数值分类学。后来,随着多元分析方法的引进,从数值分析学中逐渐分离出了聚类分析这个分支。
对于一个数据,人们既可以按照观测值对变量(或指标)进行分类 (相当于对数据中的列分类),也可
以按照变量对观测值(事件,样品)来分类(相当于对数据中的行分类) 。比如利用学生成绩数据就可以
对学生按照理科或文科成绩(或者综合考虑各科成绩)分类。当然,并不一定事先假定有多少类,完全可 以按照数据本身的规律来分类。本章要介绍的分类的方法称为 聚类分析(cluster analysis)。有人称按照观
测值对变量的分类为 R型聚类,而称按照变量对观测值的分类称为 Q型聚类。这两种聚类在数学上是对称
的,没有什么不同。
聚类分析就是一种分类方法,它将一批样品、变量(或指标) ,按照它们在性质上相似、疏远程度进
行科学的分类。而度量相似或疏远程度常有两种指标:距离和相似系数。
.基本思想
哲学理念:物以类聚、人以群分
聚类分析的基本思想是,从一批样品的多个指标变量中,定义能度量样品间或变量间相似程度(或亲 疏关系)的统计量,在此基础上求出各样品(或变量)之间的相似程度度量值,按相似程度的大小,把样 品(或变量)逐一分类,关系密切的类聚集到一个小的分类单位, 关系疏远的类聚集到一个大的分类单位,
直到所有的样品或变量都聚集完毕,把不同的类型一一划分出来,形成一个亲疏关系谱系图,用以更直观
地显示分类对象(样品或变量)的差异和联系。
一开始将要归类的n个变量(或个体)各自看成一类,然后按事先规定好的方法计算各类之间的归类 指标(如某种距离或相似系数),根据指标值大小衡量两两之间关系的密切程度,将关系最密切的两类并 成一类,其余不变,即得 n _1类;又按事先规定的方法重新计算各类之间的归类指标(仍为某种距离或相 似系数),又将关系密切的两类并成一类,其余不变,即得 n_2类;如此进行下去,每次归类都减少一类,
直到最后,n个变量(或个体)都归成一类为止。这一归类过程可以用一张聚类图(或称谱系图)形象地 表示出来,由谱系图来进行分类。可以看到,这种系统归类过程,显然与计算类与类之间的归类指标是什 么有关系,同时也与归类的方法有关系。
二、聚类分析方法
值得一提的是聚类分析和第三章的判别分析都是研究分类问题,但二者有本质的区别。聚类分析一般 上寻求客观分类的方法,事先对总体到底有几种类型无所知晓,而判别分析则是在总体类型划分已知,在 各总体分布或来自各总体训练样本的基础上,对当前的新样品用统计的方法判定它们属于哪个总体。
聚类分析的历史还很短,由于在其发展过程中首先是着重于实用,因此相对而言理论上还不够完善。
无论聚类统计量还是聚类的方法,都还未最终定型。目前,聚类统计量种类繁多,聚类方法也五花八门, 但由于聚类分析方法能广泛地应用于解决实际问题,它和回归分析,判别分析一起被称为多元分析的三大 实用方法。
本章将重点介绍一些常见的分类统计量和目前使用

多元统计分析讲义(第二章) 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息