下载此文档

如何构造聚类.ppt


文档分类: | 页数:约76页 举报非法文档有奖
1/76
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/76 下载此文档
文档列表 文档介绍
第10章聚类分析 Cluster Analysis
1 聚类分析问题
2 相似性度量
3 聚类的准则
4 聚类方法
1 聚类分析的基本问题
1)聚类问题
2)对象特征的描述
3)数据的预处理
1) 聚类问题
俗语说,“物以类聚、人以群分”
其含义是:具有类似特性的对象聚集成一类
聚类分析(Cluster Analysis)是研究“物以类聚”的一种多元统计分析方法。
分类学是人类认识世界的基础科学,在实际问题中经常需要分类:
古生物研究中,通过挖掘出来的一些骨骼的形状和大小将它们进行科学的分类;
地址勘探中,通过矿石标本的物探、化探指标要将样本进行分类;
1) 聚类问题
随着人们对自然、社会问题研究的不断深入,对分类的技术要求越来越高,仅凭专业知识和经验已经不能满足要求,促使人们研究更为精确的数值分类方法,多元统计分析方法被引入到分类中来,于是从数值分类学逐渐分离出一个新的分支:聚类分析。
聚类分析研究的目的
将相似的对象归并成类。
聚类分析研究的主要内容
如何度量相似性;如何构造聚类方法。
1) 聚类问题
聚类分析的基本思想是认为我们所研究的样本或指标(变量)之间存在着程度不同的相似性(亲疏关系)。于是根据一批样本的多个观测指标,具体找出一些彼此之间相似程度较大的样本(或指标)聚合为一类。
分类:用已知类别的样本训练集来设计分类器(监督学****br/>聚类(集群):事先不知样本的类别,而利用样本的先验知识来构造分类器(无监督学****br/>分类与聚类的区别
1) 聚类问题
自然条件?-降水、土地、日照、湿度等特性。
发展水平?-收入、教育水准、医疗条件、基础设施等指标。
如:要将中国的县划分成若干类型,如何分?
需要考虑以下问题
1)用什么来描述对象“县”的特性?对象的特征描述问题
既可以用某一项来分类,也可以同时考虑多项指标来分类。
2)如何度量两个县类似或者相似的程度?相似度描述问题
3)类似到什么程度两个县可以聚到同一类?成类准则问题
4)如何聚类?聚类策略与方法问题
1) 聚类问题
如果想要对100个学生进行分类,如果仅仅知道他们的数学成绩,则只好按照数学成绩来分类;这些成绩在直线上形成100个点。这样就可以把接近的点放到一类。
如果还知道他们的语文成绩,这样数学和语文成绩就形成二维平面上的100个点。
100
88
75
60
0




100
0
数学


100
数学+语文≥120 合格
规定
聚类分析要解决的问题
需要考虑以下问题
2)相似度描述问题
3)成类准则问题
4)聚类策略与方法问题
1)对象的特征描述问题
假设有n个对象,每一个对象都有p个特征值。它们所对应的特征数据可用下表给出。
2)对象特征的描述
2)对象特征的描述
为了将样本进行分类,就需要研究样品之间的关系;而为了将变量进行分类,就需要研究变量之间的关系。但无论是样品之间的关系,还是变量之间的关系,都是用变量来描述的,变量的类型不同,描述方法也就不同。通常,变量按照测量它们的尺度不同,可以分为三类。
(1)间隔尺度。指标度量时用数量来表示,其数值由测量或计数、统计得到,如长度、重量、收入、支出等。一般来说,计数得到的数量是离散数量,测量得到的数量是连续数量。在间隔尺度中如果存在绝对零点,又称比例尺度。

如何构造聚类 来自淘豆网www.taodocs.com转载请标明出处.