下载此文档

应用数据挖掘技术寻求丢失数据中的倾向性规律.docx


文档分类:IT计算机 | 页数:约17页 举报非法文档有奖
1/17
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/17 下载此文档
文档列表 文档介绍
大连理工大学本科外文翻译应用数据挖掘技术寻求丢失数据中的倾向性规律UsingDataMiningTechniquestoDiscover***院专学生学指导完成BiasPatternsinMissingData(系): 软件沉院 业: 软件丄程 姓名: 李文娇 号: 200792371 教师: 张宪超 H期: 2011年3月28日人连理工人学DalianUniversityofTechnology应用数据挖掘技术寻求丢失数据中的倾向性规律MonicaChiariniTremblay,KaushikDutta,andDebraVandermeer佛罗里达国际大学摘要:在当今数据丰富的环境屮,决策者根据信息库的信息来做出决定,然而这些数据的质量却可能存在着问题。在本文屮,数据丢失是个重要而广为人知的问题,因为它会严重影响决策制定的准确性。研究人员已描绘了几种办法来解决数据丢失的问题,其基本任务是推断出丢失数据的价值或判断因数据丢失而造成的影响。然而,很少有人考虑找岀丢失数据中的特征化的偏差模式,也就是,确定导致数据值丢失的一些特定的属性。对数据丢失事件屮特殊化典型化偏差模式的认知可以帮助分析师在数据丢失的情况下,更准确地评估出根据数据集制定出的决策的优劣。本项研究提出了一种结合了知识发掘和数据挖掘技术的方法,包括关联规则挖掘,用来发掘关联屈性值屮的倾向性因素,而这些关联屈性正式找到倾向性因索特征的关键所在。实验验证了我们提出的方法的有效性。我们将其应用于一个民主党人口调查的数据集并移入了偏置的丢失数据。实验结果表明我们的方法能够找到移入的偏置数据并且滤过大多移入的干扰。一般词:设计,算法,人为因素关键词:数据质量,丢失数据,模式发掘1-引言随着大量信息的接收,决策者常常依据数据集来制定决策,而这些数据集,由于各种各样的原因,存在着数据的质量问题。在决策中,数据质量至关重要并月•不好的质量会对决定的效力产生消极的彩响,以致信息被错误的报道。数据质量问题源于信息供应链的本质,这是由于,一种使用数据的用户可能距离原本收集原始数据集的人群或团体好几个供应链,而这些数据是基于原始数据集的。这些用户使用这些数据产物来制定决策,通常是关于金融和时间预算的决策。使用数据的用户和数据的供应者Z间的脱节造成了用户不清楚其至完全不知道数据具有怎样的质量的状况,导致存在错误决策发生的潜在性,影响了时间和经济资源的冇效配置。丢失的数据,也就是字段上不可获得的部分,造成了很严重的问题,因为它能导致分析师的错误判断。当数据被从原冇的数据集或数据库屮剥离出去时(这在从多种途径整合信息时经常发生),通常数据会经历一个净化过程来尽可能的减小值缺失的概率。但这个净化过程只在这个范围内冇效。还是会冇些数据无法被修补好因为数据库管理员可能压根不知道丢失的数据的值是什么,就比如有些时候会发生一个人在填写表格时漏填了一栏这样的情况。这时候,数据库管理员可能连同缺失的信息和整条记录一同删掉,这样的代价就是删掉了同条记录屮其他那些有效的数据,也或者,管理员会允许数据集中存在信息不完整的数据。我们本文的研究兴趣在于后者。数据丢失是很常见的事情,最近有一项回顾研究了300多篇在心理研究期刊上出版的文章,发现有超过90%的文章在数据库屮有数据缺失的现象,其平均的信息缺失量高达30%多,然而对于数据丢失对这些文章的潜在影响研究报告中却很少提及。引起数据值丢失的原因多种多样,大概可以归为两大类:随机丢失(MAR)和非随机丢失(MNAR)。在随机丢失的情况下,缺失的数据无法从其他的数据小推断出來,但在非随机丢失的情况卜:丢失的数据中存在着一种规律。处理随机丢失的方案小有评估缺失值和转嫁缺失值。然而,数据丢失的情况却往往属于非随机丢失类,也就是说,缺省的值貝有倾向性。这种缺失的发生可能源于很多种原因。例如,接受问卷的人会拒绝回答那些他们认为过于隐私的问题,这些问题通常关于宗教,文化,和性别取向。这种倾向性也可能是由人类天性小保留不利信息的方而引起的。例如,在填写医保信息单时,病人会故意隐瞒口己那些增加某些疾病发病率的不卫生行为。在非随机丢失情况下,如果一个分析师假设丢失的信息没有倾向性,那么他得出的结论很有可能是错谋的。比如说,一个医保政策的分析师乐担着为预防类的医保工程推荐资金分配提议的责任,他可能会因为注意到青少年吸烟的情况有了明显的改观而决定减少对提倡青少年不吸烟的项目的拨款。然而如果,大批15到20岁Z间的男性只是没有提供明确的信息说明他们吸烟还是不吸烟(导致数据集中出现了缺省值),那么分析师所注意到的明显的改观趋势实际上可能导致一个错谋的决策。任何依据此数据集做出的决定都可能没有实现对财务资源的最优配置。显然,对于非随机的数据丢失,揭露数据集小数据丢失的规律会有帮助。一旦这些规律被揭露,

应用数据挖掘技术寻求丢失数据中的倾向性规律 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数17
  • 收藏数0 收藏
  • 顶次数0
  • 上传人pppccc8
  • 文件大小56 KB
  • 时间2019-05-18