下载此文档

一种改进的CAIM算法.pdf.pdf


文档分类:IT计算机 | 页数:约3页 举报非法文档有奖
1/ 3
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/ 3 下载此文档
文档列表 文档介绍
第卷第期计算机工程年月
. .
· 软件技术与数据库· 文章编号:—文献标识码: 中圈分类号:
一种改进的算法
李慧,闫德勤,张迎春
辽宁师范大学计算机与信息技术学院,大连
摘要:在算法中,离散判别式仅考虑了区间中最多的类与属性间的依赖度,使离散化过度而导致结果不精确。基于此,提出对
的改进算法,该算法考虑到按属性重要性从小到大顺序进行离散,同时根据粗糙集理论提出条件属性可分辨率概念,与近似精度同
时控制信息表最终的离散程度,有效解决了离散化过度问题。,
结果证明了该算法的有效性。
关健词:连续属性离散化;粗糙集;属性可分辨率

,—,·
,
—,
.
..,
,.
,.
. , , .
;;
概述度为
连续属性离散化是机器学习和数据挖掘研究和应用中的

一个重要方面。在规则提取、特征分类等很多算法中,连续实
其中,表示集合的基数; 反映决策表分类的正确程
值属性必须进行离散化。离散化是把连续属性的取值范围或
度,描述了关于论域的知识完备程度。
取值区间划分为若干个数目不太多的小区间,其中每个小区
定义设,,,是一个决策表,条件属性子集
问对应着一个离散的符号。大多数离散化算法是基于统计学
或基于信息熵的,如—,—等。离散,任意条件属性∈相对于条件属性集合对决策
化算法的关键在于如何获得最优划分,最大程度地保持信息属性集合依赖程度的属性重要度定义为
,, Ⅱ一
表示的意义,减少信息损失。针对文献【】提出基于信息理论
的类一属性间最大相互依赖—. 条件属性可分辨率概念
,的连续属性离散化算法存在的不足,本粗糙集理论中一个重要的观点——将知识与区分事物能
文提出对的改进算法。力对应起来,即知识就是区分事物的能力。在论域中,若任
粗糙集理论意个对象都能被区分,那么其含有的知识最大;若所有对
. 基本概念象都能被划为一个等价类定义,那么其含有的知识最少。
设,,,为一个信息系统, 其中, 文献【对知识进行量化,证明了量化的合理性,以量化后的
,,⋯, 是论域;是属性集合;是属性取值集合; 区分能力即知识量作为启发函数指导属性约简。本文受到文
是×÷ 的映射。若, , 称为条献【的启发,根据知识量的含义,提出了条件属性可分辨率
概念。过去的离散化算法区间是否被合并或拆分起最终评定
件属性集, 称为决策属性集,则该信息系统称为决策表。
作用的是粗糙集的经典标准模型近似精度定义,本文在近
定义,∈,对于, 是上的一个等价
关系,如果满足甘∈: ,,则称是基金项目:国家自然科学基金资助项目;中国科学院自动
化研究所复杂系统与智能科学重点实验室开放课题基金资助项目
, 的一个不可分辨关系。
; 辽宁省教育厅高等学校科学研究基金资助项目
定义设为一个论域,,为上的个等价关系
;大连市科技局科技计划基金资助项目
簇, 的正域记为,定义为
作者简介:李慧,女,硕士研究生,主研方向:数据挖掘,
: 尸
粗糙集理论;闫德勤,教授、博士;张迎春,硕士研究生
定义设,对于划分,,⋯,的的近似精收

一种改进的CAIM算法.pdf 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数 3
  • 收藏数 0 收藏
  • 顶次数 0
  • 上传人 学习一点
  • 文件大小 0 KB
  • 时间2015-03-17
最近更新