下载此文档

聚类分析.ppt.ppt


文档分类:IT计算机 | 页数:约43页 举报非法文档有奖
1/43
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/43 下载此文档
文档列表 文档介绍
聚类分析
西南财经大学
统计学院
李保坤老师
2
本节讲课提纲
分类和聚类
聚类分析原理介绍
主要聚类算法的分类
不稳定的聚类方法
关于聚类
3
1 分类和聚类
分类: 有约束学****方法
从以前分好类的观测记录学****到一种方法,然后用这种方法去预测观测记录的类别
4
1 分类和聚类
聚类:无约束学****br/> 从没有分类的观测数据里给出“自然的”分组(或聚类)。在同一个聚类内对象之间具有较高的相似度,不同聚类类之间的对象差别较大。

聚类分析中“类”的特征:
聚类所说的类不是事先给定的,而是根据数据的相似性和距离来划分
聚类的数目和结构都没有事先假定

聚类方法的目的是寻找数据中:
潜在的“自然分组”结构
感兴趣的“关系”

相似性Similar的度量(统计学角度)
距离Q型聚类(主要讨论)
主要用于对样本分类
常用的距离有(只适用于具有间隔尺度变量的聚类):
明考夫斯基距离(包括:绝对距离、欧式距离、切比雪夫距离)
兰氏距离
马氏距离
斜交空间距离
此不详述,有兴趣可参考《应用多元分析》(第二版)王学民
相似系数R型聚类
用于对变量分类,可以用变量之间的相似系数的变形如1-rij定义距离
这里不详细介绍这种聚类度量方法
按照远近程度来聚类需要明确两个概念:一个是点和点之间的距离,一个是类和类之间的距离。
点间距离有很多定义方式。最简单的是歐氏距离,还有其他的距离。
当然还有一些和距离相反但起同样作用的概念,比如相似性等,两点越相似度越大,就相当于距离越短。
由一个点组成的类是最基本的类;如果每一类都由一个点组成,那么点间的距离就是类间距离。但是如果某一类包含不止一个点,那么就要确定类间距离,
类间距离是基于点间距离定义的:比如两类之间最近点之间的距离可以作为这两类之间的距离,也可以用两类中最远点之间的距离作为这两类之间的距离;当然也可以用各类的中心之间的距离来作为类间距离。在计算时,各种点间距离和类间距离的选择是通过统计软件的选项实现的。不同的选择的结果会不同,但一般不会差太多。
:两个距离
向量x=(x1,…, xp)与y=(y1,…, yp)之间的距离或相似系数:
欧氏距离:
Euclidean
平方欧氏距离:
Squared Euclidean
夹角余弦(相似系数1) :
cosine
Pearson correlation
(相似系数2):
Chebychev: Maxi|xi-yi|
Block(绝对距离): Si|xi-yi|
Minkowski:
当变量的测量值相差悬殊时,要先进行标准化. 如R为极差, s 为标准差, 则标准化的数据为每个观测值减去均值后再除以R或s. 当观测值大于0时, 有人采用Lance和Williams的距离
类Gp与类Gq之间的距离Dpq (d(xi,xj)表示点xi∈ Gp和xj ∈ Gq之间的距离)
最短距离法:
最长距离法:
重心法:
离差平方和:(Wald)
类平均法:
在用欧氏距离时, 有统一的递推公式
(假设Gr是从Gp和Gq合并而来):

聚类分析.ppt 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数43
  • 收藏数0 收藏
  • 顶次数0
  • 上传人lxydx
  • 文件大小0 KB
  • 时间2015-09-23