下载此文档

2021年度聚类分析专题教育课件讲义.ppt


文档分类:高等教育 | 页数:约25页 举报非法文档有奖
1/25
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/25 下载此文档
文档列表 文档介绍
一、基本概念
模式识别,也被称为分类或者是统计分类,模式识别学科的研究目的就是为了构建自动判别输入数据类别信息的分类系统。聚类分析是一种无监督的模式识别方法,是模式识别研究中的一个重要领域。
无监督的聚类分析算法能够探索输入数据的内部群组结构,目前已经被广泛应用于各种数据分析场合,包括计算机视觉分析,统计分析,图像处理,医疗信息处理,生物学科,社会学科和心理学科等。
聚类分析的基本原理就是将输入数据分成不同的群组,同一组中的成员拥有相似的特性,相反,不同组中的成员特性相异。
1
2021/1/7
聚类分析专题教育课件
二、问题引出
要用数量化的方法对事物进行分类,就必须用数量化的方法描述事物之间的相似程度,而这个相似程度应该如何用数学描述和度量呢?
(1)样本之间如何相似度测量?
(2)类与类之间如何相似度测量?
(3)变量相似度测量又会怎样呢?
2
2021/1/7
聚类分析专题教育课件
三、距离和相似系数
对于一群有待分类的样本点需要P个变量描述,则每个样本点可以看成是 空间中的一个点。因此,我们很自然地想到可以用距离来度量样本点间的相似程度。
从一组复杂数据产生一个相当简单的类结构,必然要求进行“相关性”或“相似性”的度量。因此,我们会想到用相似系数来度量样品或变量的亲疏程度。
3
2021/1/7
聚类分析专题教育课件
距离
记 是样本点集,距离 是 的一个函数,满足条件:
(1)
(2)
(3)
(4)
这是距离定义,满足正定型、对称性和三角不等式。
4
2021/1/7
聚类分析专题教育课件
在聚类分析中,最常用的是闵式(Minkowski)距离,即:
当q=1,2或趋近于正无穷时,则分别可以得到:
(1)绝对值距离:
(2)欧氏距离:
(3)车比雪夫距离:
注意:采用闵式距离一般要求变量具有相同量纲!
5
2021/1/7
聚类分析专题教育课件
在采用闵式距离时,注意的是避免变量的多重相关性,多重相关性所造成的重叠会片面强调某些变量的重要性。由于这些缺点,一种改进的距离就是马氏距离,即:
其中:x,y为来自P维总体Z的样本观测值;为Z的协方差矩阵,实际中 往往是未知的,常常需要用样本协方差来估计。马氏距离对一切线性变换是不变的,故不受量纲的影响。
6
2021/1/7
聚类分析专题教育课件
相似系数
夹角余弦:
夹角余弦时从向量集合的角度所定义的一种测度变量之间亲疏程度的相似系数。设在P维空间的向量:
则: ,
相关系数:
7
2021/1/7
聚类分析专题教育课件
四、类与类之间的相似性度量
如果有两个样本类之G1和G2,常用下列方法度量它们之间的距离:
(1)最短距离法:
x21•
x12•
x22•
x11•
G1
G2
……
……
8
2021/1/7
聚类分析专题教育课件
(2)最长距离法:
x21•
x12•
x22•
x11•
G1
G2
……
……
9
2021/1/7
聚类分析专题教育课件
(3)重心法:
x21•
x12•
x22•
x11•
G1
G2
……
……
10
2021/1/7
聚类分析专题教育课件

2021年度聚类分析专题教育课件讲义 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数25
  • 收藏数0 收藏
  • 顶次数0
  • 上传人读书百遍
  • 文件大小885 KB
  • 时间2021-01-07