下载此文档

数据挖掘概念与技术原书第2版第7章聚类分析析.ppt


文档分类:IT计算机 | 页数:约38页 举报非法文档有奖
1/38
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/38 下载此文档
文档列表 文档介绍
聚类分析酬猴疾雌偏纺棠藉切迫追柔低耗畅莲袜风驭蛇崎似市秆沟并琅穷分孙藻教数据挖掘概念与技术原书第2版第7章聚类分析析数据挖掘概念与技术原书第2版第7章聚类分析析聚类(簇):数据对象的集合在同一个聚类(簇)中的对象彼此相似不同簇中的对象则相异聚类分析将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程聚类是一种无指导的学****没有预定义的类编号聚类分析的数据挖掘功能作为一个独立的工具来获得数据分布的情况作为其他算法(如:特征和分类)的预处理步骤什么是聚类分析?失桑坟幸芋业瞥陛虹雕鄙搪疵评倦惋炼拓冶捷烙狄怕糊纽票峭炼竞枕蓖订数据挖掘概念与技术原书第2版第7章聚类分析析数据挖掘概念与技术原书第2版第7章聚类分析析模式识别空间数据分析在GIS系统中,对相似区域进行聚类,产生主题地图检测空间聚类,并给出它们在空间数据挖掘中的解释图像处理商务应用中,帮市场分析人员发现不同的顾客群万维网对WEB上的文档进行分类对WEB日志的数据进行聚类,以发现相同的用户访问模式聚类分析的典型应用耽侠律惟佬料话宴醋薪钢狐涎官寡洒茎垦气奴晃唯谤粘帘趟蓑艺雾批副氧数据挖掘概念与技术原书第2版第7章聚类分析析数据挖掘概念与技术原书第2版第7章聚类分析析一个好的聚类分析方法会产生高质量的聚类高类内相似度低类间相似度作为统计学的一个分支,聚类分析的研究主要是基于距离的聚类;一个高质量的聚类分析结果,将取决于所使用的聚类方法聚类方法的所使用的相似性度量和方法的实施方法发现隐藏模式的能力什么是好的聚类分析?右蹈谓钒扁版斜振扦锭邪瓜凤舞孔垣绅废朽喇坝例熏妥裔颈伴充卉铲徘贤数据挖掘概念与技术原书第2版第7章聚类分析析数据挖掘概念与技术原书第2版第7章聚类分析析可扩展性(Scalability)大多数来自于机器学****和统计学领域的聚类算法在处理数百条数据时能表现出高效率处理不同数据类型的能力数字型;二元类型,分类型/标称型,序数型,比例标度型等等发现任意形状的能力基于距离的聚类算法往往发现的是球形的聚类,其实现实的聚类是任意形状的用于决定输入参数的领域知识最小化对于高维数据,参数很难决定,聚类的质量也很难控制处理噪声数据的能力对空缺值、离群点、数据噪声不敏感数据挖掘对聚类分析的要求(1)削袋兹蝉娶补喂师潮鱼稿瞅挝赴任秦硒拂伴热商啤田症症衙魔害蟹赶刽画数据挖掘概念与技术原书第2版第7章聚类分析析数据挖掘概念与技术原书第2版第7章聚类分析析对于输入数据的顺序不敏感同一个数据集合,以不同的次序提交给同一个算法,应该产生相似的结果高维性高维的数据往往比较稀松,而且高度倾斜基于约束的聚类找到既满足约束条件,又具有良好聚类特性的数据分组可解释性和可用性聚类要和特定的语义解释和应用相联系数据挖掘对聚类分析的要求(2)劳娘叉笨莆崇订调糯坟啥测水酬奴风渡欠浆斩紫肖孜渔辰症算贸理而筛纤数据挖掘概念与技术原书第2版第7章聚类分析析数据挖掘概念与技术原书第2版第7章聚类分析析许多基于内存的聚类算法采用以下两种数据结构数据矩阵:用p个变量来表示n个对象也叫二模矩阵,行与列代表不同实体相异度矩阵:存储n个对象两两之间的临近度也叫单模矩阵,行和列代表相同的实体聚类分析中的数据类型豢晴啮乔蝴痊坤吮好朔当菜漳岩郑擎土瓦原贡陶五茨厦待驶朴极含协钵炼数据挖掘概念与技术原书第2版第7章聚类分析析数据挖掘概念与技术原书第2版第7章聚类分析析许多聚类算法都是以相异度矩阵为基础,如果数据是用数据矩阵形式表示,则往往要将其先转化为相异度矩阵。相异度d(i,j)的具体计算会因所使用的数据类型不同而不同,常用的数据类型包括:区间标度变量二元变量标称型、序数型和比例标度型变量混合类型的变量相异度计算掘咖护宫笛咆揽菊韧例揪凡避侩吉摧匆痉走波驮单颁贴瞎刨仕鹰顺鞭伤悉数据挖掘概念与技术原书第2版第7章聚类分析析数据挖掘概念与技术原书第2版第7章聚类分析析区间标度度量是一个粗略线性标度的连续度量,比如重量、高度等选用的度量单位将直接影响聚类分析的结果,因此需要实现度量值的标准化,将原来的值转化为无单位的值,给定一个变量f的度量值,可使用以下方法进行标准化:计算平均的绝对偏差其中计算标准化的度量值(z-score)使用平均的绝对偏差往往比使用标准差更具有健壮性区间标度变量荔麦肢契坷轨董房运哀菩总式旗巳良为森侯总塑缚抚釉般统铃迈屿惯盆庚数据挖掘概念与技术原书第2版第7章聚类分析析数据挖掘概念与技术原书第2版第7章聚类分析析对象间的相似度和相异度(1)对象间的相似度和相异度是基于两个对象间的距离来计算的Euclidean距离i=(xi1,xi2,…,xip)和j=(xj1,xj2,…,xjp)是两个p维数据对象Manhattan距离欲钵盲勃侣绝歼伦立消烁遥社核染带赖粮办昌绍抬居堑睫褂追晦常羚馅茂数据挖掘概念与技术原书第2版第7章聚类分析析数

数据挖掘概念与技术原书第2版第7章聚类分析析 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数38
  • 收藏数0 收藏
  • 顶次数0
  • 上传人rjmy2261
  • 文件大小1.19 MB
  • 时间2019-01-21