聚类分析Cluster Analysis
内容提要
聚类分析简介
聚类分析有关统计量
分层聚类法步骤
K均值聚类法步骤
两步聚类法步骤
案例分析
聚类分析的定义
依据研究对象(样品或指标)的特征,对其进行分类的方法,减少研究对象的数目。
各类事物缺乏可靠的历史资料,无法确定共有多少类别,目的是将性质相近事物归入一类。
各指标之间具有一定的相关关系。
聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)
变量类型:定类变量、定量(离散和连续)变量
聚类方法
层次聚类(Hierarchical Clustering)
合并法
分解法
树状图
非层次聚类
K均值聚类法(K-means Clustering)
智能聚类法
聚类分析的有关统计量
聚合过程表
群重心
群中心
群间距离
分层聚类分析的步骤
定义问题与选择分类变量
聚类方法
确定群组数目
聚类结果评估
结果的描述、解释
K-means Cluster(快速样品聚类)过程
属于非层次聚类法的一种
方法原理
选择(或人为指定)某些记录作为凝聚点
按就近原则将其余记录向凝聚点凝集
计算出各个初始分类的中心位置(均值)
用计算出的中心位置重新进行聚类
如此反复循环,直到凝聚点位置收敛为止
K-means Cluster过程
方法特点
要求已知类别数
可人为指定初始位置
节省运算时间
样本量大于100时有必要考虑
只能使用连续性变量
K均值聚类法分析步骤
定义问题
确定群组数目
结果的描述、解释
TwoStep Cluster过程
特点:
处理对象:分类变量和连续变量
自动决定最佳分类数
快速处理大数据集
前提假设:
变量间彼此独立
分类变量服从多项分布,连续变量服从正态分布
模型稳健
算法原理:
第一步:逐个扫描样本,每个样本依据其与已扫描过的样本的距离,被归为以前的类,或生成一个新类
第二步,对第一步中各类依据类间距离进行合并,按一定的标准,停止合并
聚类分析.ppt 来自淘豆网www.taodocs.com转载请标明出处.