数据挖掘主要算法及流程说明1 贝叶斯概率算法1) 贝叶斯概率算法主要应用于离散分类应用中,其要求属性集保持相对独立性或者具有弱关联关系。2) 贝叶斯概率算法主要是适用于分类问题,进行所属类型的判定;通过对各种属性及概率的最大似然估计判断,得到最终分类结果。3) 贝叶斯分类算法的决策依据(以二分类为例): 最小误差分类,yy即 P ( 1 | X ) f P ( 2 | X ),则将 X 分到类别 y1,否则为 y2,其相应错误分类概率为P (errot |X ) = íìP (y 1 |X ),如果判定为y 2y ,îP ( 2 | X ) 如果判定为y 1。ìR (y 1 |X ) =c 11P (y 1 |X ) +c 12P (y 2 |X )íîR (y 2 |X ) =c 21P (y 1 |X ) +c 22P (y 2 |X ) 最小风险分类:通过错误代价矩阵判定应该归属类,其代价矩C }(i 0 1 )阵为C = { ij | 把一个y j 类的样本分到y i中 ,,j Î {,},风险矩阵值通过给定风险函数确定,风险函数为:,若yyR ( 1 | X ) p R ( 2 | X ),则将 X 分到类 y1 中,否则分到类别 y2 中。4) 在判定中****惯于选择正态密度函数作为数据分布的假设,计算变量 X 的最终所属分类为便于描述,X 表示属性集,Y 表示类变量。贝叶斯概率算法的主要步骤可以分成两大步: 创建网络拓扑结构 估计每一个属性的概率表中的概率值。其中,网络拓扑结构(有向无环图)生成,是简化贝叶斯概率算法复杂度的一个重要步骤。网络拓扑结构可以通过对主观的领域专家知识编码进行获得,其主要流程处理如下:a) 假设T = (X 1,X 2 ,L ,X d )表示变量的全序b) For j=1,2,……,d doc) 令 X T (j )表示 T 中第 j 个次序最高的变量d)e)f)XX 1X令 D( T (j )) = { T ( ),X T (2), L ,X T (j -1)}表示排在 X T (j )前面的变量集合去掉集合 D( T (j ))中对变量 X j 没有影响的变量,通过先验概率进行判断。X在 X T (j )和集合 D( T (j ))中剩余的变量之间画弧,即表示彼此之间存在一定的互相影响关系。g) End for依据统计数据的概率值进行结果分类判定,其主要执行步骤如下:XY1. 假设 X = { 1,X 2 ,L ,X n }表示所有的属性集合,Y = {1,Y2 ,L ,Y m }表示所有的类变量集合。2. 合计统计数据集的数量,即为 N。3. For i = 1,2,……,m do4. For j = 1,2,……,n do5. 统计结果为 Yi 时,恰好相应属性集分别为 Xj 时的数目 Nij。6.XPij = Nij/N(即计算 P ( j | Yi )的统计概率)。7. End forX ,8. 计算后验概率 P ( ' | Yi ) X '表示当前待判定的属性集合9. End for10. 选择最小概率误差结果的 Yk,(k=1,2,……,m)表示最终分类结果注:[1] 在进行贝叶斯网络拓扑结构生成过程中,需要人为适当干预,确定变
数据挖掘主要算法及流程说明 来自淘豆网www.taodocs.com转载请标明出处.