下载此文档

决策树方法在数据挖掘中的应用.ppt


文档分类:IT计算机 | 页数:约20页 举报非法文档有奖
1/20
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/20 下载此文档
文档列表 文档介绍
决策树方法在数据挖掘中的应用
第1页,本讲稿共20页
1 KnowledgeSEEKER简介
KnowledgeSEEKER是一个由Angoss公司开发的基于决策树的数据分析程序。该程序具有相当完整的分类树分析功能。
Know素对血压偏低、正常及偏高所产生的影响。
第6页,本讲稿共20页
3 定义研究对象
2、启动
第7页,本讲稿共20页
3 定义研究对象
3、设置因变量
一开始,字段Hypertension就已经被自动设置为因变量。
稍后,还将改变因变量的设置。
打开bpress数据集之后将出现如图所示的屏幕。
第8页,本讲稿共20页
第9页,本讲稿共20页
3 定义研究对象
图中的根结点对应的是因变量。在根节点中血压已经分别被分为3类:偏低、正常和偏高。我们现在要了解的是血压偏低、正常和偏高的人都分别具有哪些特征。从图中可以看出:
研究对象中有18%的人(即66个人)血压偏低
研究对象中有60%的人(即217个人)血压正常
研究对象中有21%的人(即77个人)血压偏高
第10页,本讲稿共20页
4 建立模型
目前KnowledgeSEEKER已经构造出模型树的下一层分支。当然,模型树还可以自动生成出多层分支。
图中的模型树的下一层分支表明上一层的双亲节点是按年龄(age)进行分叉的。年龄只是影响血压的一个变量,但是在目前这个例子中,年龄似乎是导致一个人的血压是否偏高的最重要因素。
如图所示,研究对象按年龄分为以下3组:
32~50岁,51~62岁,63~73岁
它们分别对应于模型树的三个叶节点。
此外,还可以用除Age以外的其他字段为模型树创建新的叶节点。在模型树上通过指定其它字段以创建新的叶节点称为分叉。对于当前这个数据集,系统会自动发现12个分叉。
第11页,本讲稿共20页
5 理解模型
1)观察其分叉
观察其分叉将使我们可以看到除年龄以外对血压还有影响的其他重要变量的作用。KnowledgeSEEKER可以计算出所有变量对血压影响的大小并将使它们按顺序排列起来。用另一个变量直接在根节点下面构造叶节点即可进入模型树的另一个分叉。这样,我们就可以很容易地观察到其他数据元素对血压的影响。
对于自动生成的每一个分叉所作的概述将为我们考虑下一步的研究方向提供有益的线索。很明显,所获得的信息中有一些符合我们的预先估计;然而,我们从数据集中也发现了一些预先没有估计到的结果,如人的身高与其高血压之间的关系就是我们预先没有估计到的。
第12页,本讲稿共20页
5 理解模型
2)进入特定分叉
3)扩展模型树
以smoking为分叉变量构造的模型树目前还只有一层。我们可以对这棵模型树作进一步扩展。在模型树的第二层中选择经常吸烟者相对应的节点,然后,在Grow下拉菜单中选择Find Split,即可以看到如图所示的屏幕。
第13页,本讲稿共20页
第14页,本讲稿共20页
5 理解模型
KnowledgeSEEKER发现对于描述经常吸烟者特征最为有效的分组变量就是年龄。
也就是说,对于经常吸烟的人而言,年龄将是确定其是否患高血压的最关键的指标,数据表明年龄在63~%患有高血压,而年龄在32~%。
为进一步描述经常吸烟者的特征,KnowledgeSEEKER总共发现了6个分叉变量,分别是Age,Height,PorkLastWeek,DrinkPattern,Gender以及SaltConsumption。其中以年龄最为有效。
第15页,本讲稿共20页
5 理解模型
4)强制分叉
有时我们还想观察一下那些没有自动发现的变量的作用。例如,我们可能想知道PoultryLastWeek对人们患有高血压有什么影响。为此,我们可以在模型树上作强制分叉。
第16页,本讲稿共20页
5 理解模型
5)对模型进行验证
当我们从一个数据集中发现某些结果之后,总是希望能够用另外一个数据集再对其进行验证。Angoss将那些用于验证的数据集又称为测试分区(Test Partition)。
KnowledgeSEEKER允许我们用另一个数据集(即测试分区)对新发现的结果进行验证。
第17页,本讲稿共20页
5 理解模型
6)重新定义挖掘对象
假如我们想要改变所研究的内容(例如,想要研究饮酒数量不同的人之间的差别),那么就需要重新定义研究对象。
改变模型树的根节点为DrinkPattern,即新的模型树的根节点对应的因变量为DrinkPattern,其中可以含有下列值:
Regular(经常饮酒)
Occasional(偶然饮酒)
Former(以前曾经饮酒)
N

决策树方法在数据挖掘中的应用 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数20
  • 收藏数0 收藏
  • 顶次数0
  • 上传人文库新人
  • 文件大小4.30 MB
  • 时间2022-01-27