下载此文档

聚类分析ppt.pptx


文档分类:IT计算机 | 页数:约31页 举报非法文档有奖
1/31
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/31 下载此文档
文档列表 文档介绍
数据的分类—聚类分析
韩猛
饮料数据( )
16种饮料的热量、咖啡因、钠及价格四种变量
如何根据以上数据对16种饮料进行分类呢?
对数据进行分类就需要知道距离?你知道那些距离?
如何度量距离远近?
如果想要对100个学生进行分类,而仅知道他们的数学成绩,则只好按照数学成绩分类;这些成绩在直线上形成100个点。这样就可以把接近的点放到一类。
如果还知道他们的物理成绩,这样数学和物理成绩就形成二维平面上的100个点,也可以按照距离远近来分类。
三维或者更高维的情况也是类似;只不过三维以上的图形无法直观地画出来而已。
在饮料数据中,每种饮料都有四个变量值。这就是四维空间点的问题了。
两个距离概念
按照远近程度来聚类需要明确两个概念:一个是点和点之间的距离,一个是类和类之间的距离。
点间距离有很多定义方式。最简单的是歐氏距离。
当然还有一些和距离相反但起同样作用的概念,比如相似性等,两点越相似度越大,就相当于距离越短。
两个距离概念
由一个点组成的类是最基本的类;如果每一类都由一个点组成,那么点间的距离就是类间距离。但是如果某一类包含不止一个点,那么就要确定类间距离,
类间距离是基于点间距离定义的:比如两类之间最近点之间的距离可以作为这两类之间的距离,也可以用两类中最远点之间的距离或各类的中心之间的距离来作为类间距离。
在计算时,各种点间距离和类间距离的选择是通过统计软件的选项实现的。不同的选择的结果会不同,但一般不会差太多。
向量x=(x1,…, xp)与y=(y1,…, yp)之间的距离或相似系数:
欧氏距离:
Euclidean
平方欧氏距离:
Squared Euclidean
夹角余弦(相似系数1) :
cosine
Pearson correlation
(相似系数2):
Chebychev: Maxi|xi-yi|
Block(绝对距离): Si|xi-yi|
Minkowski:
当变量的测量值相差悬殊时,要先进行标准化. 如R为极差, s 为标准差, 则标准化的数据为每个观测值减去均值后再除以R或s. 当观测值大于0时, 有人采用Lance和Williams的距离
类Gp与类Gq之间的距离Dpq (d(xi,xj)表示点xi∈ Gp和xj ∈ Gq之间的距离)
最短距离法:
最长距离法:
重心法:
离差平方和:
(Wald)
类平均法:
(中间距离, 可变平均法,可变法等可参考各书).
在用欧氏距离时, 有统一的递推公式
最短距离(Nearest Neighbor)
x21•
x12•
x22•
x11•
最长距离(Furthest Neighbor )



x11•
x21•


聚类分析ppt 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数31
  • 收藏数0 收藏
  • 顶次数0
  • 上传人xunlai783
  • 文件大小215 KB
  • 时间2018-06-04