决策树方法应用实例
第1页,本讲稿共16页
解:由题意可知:
s=14,类标号属性“购买电脑”有两个不同值(即{会购买,不会购买}),因此有两个不同的类(即m=2)。设类C1对应于“会购买”,类C2对应于“不会购买
对于信用等级=“一般”: s11=6,s21=2,p11=6/8,p21=2/8,
对于信用等级=“良好”: s12=3,s22=3,p12=3/6,p22=3/6,
第5页,本讲稿共16页
如果样本按“信用等级”划分,对一个给定的样本分类所需的期望信息为:
因此,这种划分的信息增益是
Gain(信用等级)=I(s1,s2) - E(信用等级)=-=。
由于 “年龄” 属性具有最高信息增益,它被选作测试属性。创建一个节点,用“年龄”标记,并对每个属性值引出一个分支。样本据此划分,如图所示。
第6页,本讲稿共16页
收入
学生
信用等级
类
高
否
一般
会购买
低
是
良好
会购买
中等
否
良好
会购买
高
是
一般
会购买
收入
学生
信用等级
类
高
否
一般
不会购买
高
否
良好
不会购买
中等
否
一般
不会购买
低
是
一般
会购买
中等
是
良好
会购买
收入
学生
信用等级
类
中等
否
一般
会购买
低
是
一般
会购买
低
是
良好
不会购买
中等
是
一般
会购买
中等
否
良好
不会购买
<=30
31…40
>40
年 龄
第7页,本讲稿共16页
收入
学生
信用等级
类
高
否
一般
不会购买
高
否
良好
不会购买
中等
否
一般
不会购买
低
是
一般
会购买
中等
是
良好
会购买
表1 年龄<=30
当年龄<=30时,对应于表1。S=5,设类C1对应于“会购买”,类C2对应于“不会购买”。则s1=2,s2=3,p1=2/5,p2=3/5。
①计算对给定样本分类所需的期望信息:
②计算每个属性的熵。
先计算属性“收入”的熵。
对于收入=“高”:s11=0,s21=2,p11=0,p21=1,
第8页,本讲稿共16页
对于收入=“中等”: s12=1,s22=1,p12=1/2,p22=1/2,
对于收入=“低”: s13=1,s23=0,p13=1,p23=0,
如果样本按“收入”划分,对一个给定的样本分类所需的期望信息为:
因此,这种划分的信息增益是
Gain(收入)=I(s1,s2) - E(收入)=-=。
第9页,本讲稿共16页
计算“学生”的熵。
对于学生=“是”:s11=2,s21=0,p11=1,p21=0,
对于学生=“否”: s12=0,s22=3,p12=0,p22=1,
如果样本按“学生”划分,对一个给定的样本分类所需的期望信息为:
因此,这种划分的信息增益是
Gain(学生)=I(s1,s2) - E(学生)=-0=。
第10页,本讲稿共16页
计算“信用等级”的熵。
对于信用等级=“一般”:s11=1,s21=2,p11=1/3,p21=2/3,
对于信用等级=“良好”:s12=1,s22=1,p12=1/2,p22=1/2,
如果样本按“信用等级”划分,对一个给定的样本分类所需的期望信息为:
因此,这种划分的信息增益是
Gain(信用等级)=I(s1,s2) - E(信用等级)=-=。
第11页,本讲稿共16页
由于 “学生” 属性具有最高信息增益,它被选作测试属性。创建一个节点,用“学生”标记,并对每个属性值引出一个分支。
同理,对表2进行计算。得出属性“信用等级”具有最高信息增益,它被选作测试属性。创建一个节点,用“信用等级”标记,并对每个属性值引出一个分支。
最终构造的决策树如下图所示。
收入
学生
信用等级
类
中等
否
一般
会购买
低
是
一般
会购买
低
是
良好
不会购买
中等
是
一般
会购买
中等
否
良好
不会购买
表2 年龄>40
第12页,本讲稿共16页
年 龄?
学 生?
信用等级?
会购买
不会购买
会购买
会购买
不会购买
<=30
31…40
>40
一般
良好
是
否
“购买电脑” 的决策树
第13页,本讲稿共16页
由决策树产生分类规则
决策树方法应用实例 来自淘豆网www.taodocs.com转载请标明出处.