下载此文档

第5章52ID3.ppt


文档分类:IT计算机 | 页数:约42页 举报非法文档有奖
1/42
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/42 下载此文档
文档列表 文档介绍
2020
第5章52ID3
NO.
属性
类别
天气
气温
湿度

1



无风
N
2



有风
N
3
多云


无风
P
4

择互信息最大的特征天气作为树根,在14个例子中对天气的3个取值进行分枝,3 个分枝对应3 个子集,分别是:
F1={1,2,8,9,11},F2={3,7,12,13},F3={4,5,6,10,14}
其中F2中的例子全属于P类,因此对应分枝标记为P,其余两个子集既含有正例又含有反例,将递归调用建树算法。
⒌ 递归建树
分别对F1和F3子集利用ID3算法,在每个子集中对各特征(仍为四个特征)求互信息.
(1)F1中的天气全取晴值,则H(U)=H(U|V),有I(U|V)=0,在余下三个特征中求出湿度互信息最大,以它为该分枝的根结点,再向下分枝。湿度取高的例子全为N类,该分枝标记N。取值正常的例子全为P类,该分枝标记P。
(2)在F3中,对四个特征求互信息,得到风特征互信息最大,则以它为该分枝根结点。再向下分枝,风取有风时全为N类,该分枝标记N。取无风时全为P类,该分枝标记P。
这样就得到图的决策树

ID3算法在数据挖掘中占有非常重要的地位。但是,在应用中,ID3算法不能够处理连续属性、计算信息增益时偏向于选择取值较多的属性等不足。
,。。

(1)用信息增益率来选择属性,它克服了用信息增益选择属性时偏向选择取值多的属性的不足;
(2)在树构造过程中或者构造完成之后,进行剪枝;
(3)能够完成对连续属性的离散化处理;
(4)能够对于不完整数据的处理,例如未知的属性值;
(5),并最终可以形成产生式规则。

Quinlan在ID3中使用信息论中的信息增益(gain)来选择属性,(gain ratio)来选择属性。
信息增益率

理论和实验表明,采用“信息增益率”()比采用“信息增益”(ID3方法)更好,主要是克服了ID3方法选择偏向取值多的属性。
基于信道容量的IBLE方法
我们于91年研制的IBLE方法
IBLE方法是利用信息论中信道容量来选择属性,比互信息更好。

IBLE方法建决策规则树,每个结点由多个属性取值组成,各特征的正例标准值由译码函数决定。结点中判别正反例的阈值是由实例中权值变化的规律来确定的。
决策规则树
规则1
规则2
规则n
u1
u1
u1
u2
u2
u2
决策规则树结点
(1)规则表示形式
决策规则树中非叶结点均为规则。规则表示为:
特征: A1,A2,..., .Am
权值: W1,W2,...,.Wm
标准值:V1,V2,..., .Vm
阈值:Sp,Sn
该规则可形式描述为:
(1)sum:=0;
(2)对i:=1到m作:若(Ai)=Vi,则 sum:=sum+wi;
(3)若sumsn,则该例为N类;
(4)若sumsp,则该例为P类;
(5)若sn<sum<sp,则该例暂不能判,转下一条规则判别。
其中sum表示权和,(Ai)表示特征Ai的取值。
(2)举例
设问题空间中例子有10个特征(属性),特征编号从1到10。每个特性取值为{no,yes},用{0,1}表示,规则是由重要特征组成的,对每个特征求出权值以表示其重要程度,删除不重要特征得规则如下:
特征: 1 3 4 6 7
权值: 100 90 105 500 40
标准值: 1 0 1 1 0
阈值: 220,100
现有三个测试例子:
例子1:(1,0,0,0,1,0,0,1,1,1)
例子2:(0,1,0,0,1,0,0,0,1,0)
例子3:(0,1,0,0,1,0,1,0,1,1)
例子1的权和sum=230,有sum>220,判定例子1属于u1类。
例子2的权和sum=130,有100<s

第5章52ID3 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数42
  • 收藏数0 收藏
  • 顶次数0
  • 上传人放射辐射
  • 文件大小522 KB
  • 时间2022-08-12
最近更新