下载此文档

数据挖掘算法_分类数据挖掘..ppt


文档分类:IT计算机 | 页数:约24页 举报非法文档有奖
1/24
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/24 下载此文档
文档列表 文档介绍
1数据挖掘算法——分类数据挖掘内容提要?分类的概念及其应用?分类挖掘的过程与方法?基于决策树的分类挖掘方法? ID3 方法原理 2 分类( Classification )的概念?分类是最常见的数据挖掘任务,也是人类众多规则之一。?学科分类?生物分类(瑞典植物学家 Carl Linnaeus 发明) ?分成界、门、纲、目、科、属、种。?动物界,如有脊髓的动物被划分为脊椎动物门;附加的特征用于将脊椎动物进一步细分为鸟、哺乳动物、爬行动物纲;这些纲进一步细分,直到分类学的最底层。?同一种的成员在很多方面存在相似性。如形态、繁殖等?新物种的发现?北京时间 12 月 12 日消息,美国《时代》周刊周二评选出 2009 年度十大新物种,其中“博萨维毛鼠”位居榜首,迷你霸王龙、重达 1吨的史前巨蟒均榜上有名。 3 分类( Classification )的概念?分类包括考察一个新出现的对象的特征,并归类到已定义类中。?在数据挖掘中,分类的对象通常是数据库表或文件中的记录?分类工作首先要有一个清晰定义的类?注意: 类的个数是确定的,预先定义好的?其次,要有一系列已分类实例 4 分类的应用?分类实际上是?先建立某种模型,即根据数据集的特点构造一个分类函数或分类模型。?然后将其用于对未分类的数据进行分类,即此分类函数或模型能够把未知类别的样本映射到给定的类别之一。?分类与预测?这是两种数据分析的形式,用來找出模型以描述数据或预测未來的变化趋势。常用于:信誉分析、目标市场、医疗诊断、性能预测等。如?将信用卡申请者分为高、中、低风险?发现欺诈性理赔申请?将考生成绩分成优、良、中、差?…?分类?银行信贷员需要分析资料,弄清楚哪些贷款申请是安全的,哪些是有风险的。故将贷款申请者分为“安全”和“有风险”两类。?预测?银行信贷员需要预测贷款给某个客户多少钱是安全的。 5分类挖掘的方法?要进行分类,就需要有一个分类的规则。?分类的最终结果取决于分类规则?分类的准确度取决于分类规则的优略。?规则很容易用语言表达?交流语言(英语、汉语、…) ?结构化语言 if then ?程序语言。如 SQL 在特定的类别中检索记录?逻辑表达式?分类规则也可以通过手工的方式辛苦地建立起来,也可以通过某种算法得到。 6分类器的构造方法?(1)统计方法?常见的统计方法有 knn 算法? kNN(k Nearest Neighbors) 假设每一个类包含多个样本数据,而且每个数据都有一个唯一的类标记表示这些样本是属于哪一个分类, kNN 就是计算每个样本数据到待分类数据的距离,取与待分类数据最近的 k各样本数据,那么这个 k个样本数据中哪个类别的样本数据占多数,则待分类数据就属于该类别。?基于事例的学****方法。 7分类器的构造方法?(2)机器学****方法?决策树法?归纳法?(3)神经网络方法?神经网络方法主要是 BP算法?粗糙集(rough set) 知识表示是产生式规则?通常,一个分类模型需要在准确度( Accuracy ) 和透明度之间进行权衡。?在某些分类应用中,准确是唯一重要的?如邮件分类。通常不关心该模型是如何工作的。?在另一些应用中,透明度就显得格外重要。?如考试不及格等 8分类模型的构造过程:两个阶段?训练阶段?在构造模型前,将数据集随机地分为训练集和测试数据集?训练阶段使用训练数据集,通过分析训练数据集的属性来构造模型?假设每个元组属于一个预定义类,由“类标号”属性来确定。训练集中的单个元组称为训练样本, 一个具体样本的形式可为:( V1, V2, ..., Vn; c ); 其中 Vi表示属性值,c表示类别。?由于已提供每个训练样本的标号,故称有指导的学****通常分类模型以分类规则、判定树、数学公式等形式提供?测试阶段?用于评估分类模型的准确率。如果一个分类模型的准确率是可接受的,就可以用此模型来对其他未知类别的元组进行分类 9分类的两个阶段 (测试集)对类标号未知的新数据分类 10 资料应用过程举例训练样本婚姻年龄收入否是否是未婚已婚<35 ≧ 35低高否小康 2. 模型评估X 错误率为 % 修改模型修改模型

数据挖掘算法_分类数据挖掘. 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息