下载此文档

《数据挖掘的清洗》.ppt


文档分类:IT计算机 | 页数:约46页 举报非法文档有奖
1/46
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/46 下载此文档
文档列表 文档介绍
该【《数据挖掘的清洗》 】是由【相惜】上传分享,文档一共【46】页,该文档可以免费在线阅读,需要了解更多关于【《数据挖掘的清洗》 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。数据预处理为什么需要数据预处理?数据清洗数据集成与转换数据归约数据离散化与概念层次的构建本章小结精选课件2024/4/161为什么需要数据预处理?在现实社会中,存在着大量的“脏〞数据不完整性〔数据结构的设计人员、数据采集设备和数据录入人员〕缺少感兴趣的属性感兴趣的属性缺少局部属性值仅仅包含聚合数据,没有详细数据噪音数据〔采集数据的设备、数据录入人员、数据传输〕数据中包含错误的信息存在着局部偏离期望值的孤立点不一致性〔数据结构的设计人员、数据录入人员〕数据结构的不一致性Label的不一致性数据值的不一致性精选课件2024/4/162为什么需要数据预处理?数据挖掘的数据源可能是多个互相独立的数据源关系数据库多维数据库〔DataCube〕文件、文档数据库数据转换为了数据挖掘的方便海量数据的处理数据归约〔在获得相同或者相似结果的前提下〕精选课件2024/4/163为什么需要数据预处理?没有高质量的数据,就没有高质量的挖掘结果高质量的决策必须基于高质量的数据根底上数据仓库是在高质量数据上的集成精选课件2024/4/164数据预处理的主要任务数据清理填入缺失数据平滑噪音数据确认和去除孤立点解决不一致性数据集成多个数据库、DataCube和文件系统的集成数据转换标准化、聚集等数据归约在可能获得相同或相似结果的前提下,对数据的容量进行有效的缩减数据离散化对于一个特定的连续属性,尤其是连续的数字属性,可以把属性值划分成假设干区间,以区间值来代替实际数据值,?数据清洗数据集成与转换数据归约数据离散化与概念层次的构建本章小结精选课件2024/4/167数据清洗主要任务补充缺失数据识别孤立点,平滑噪音数据处理不一致的数据精选课件2024/4/168缺失数据的处理局部数据通常是不可用的在许多元组中局部属性值为空。如:在客户表中的客户收入为空。导致数据缺失的原因数据采集设备的故障由于与其它信息的数据存在不一致性,因此数据项被删除由于不理解或者不知道而未能输入在当时数据输入的时候,该数据项不重要而忽略数据传输过程中引入的错误缺失数据通常需要经过合理的推断予以添加精选课件2024/4/169缺失数据的处理方法忽略该记录〔元组〕通常在进行分类、描述、聚类等挖掘,但是元组缺失类标识时该种方法通常不是最正确的,尤其是缺失数据比例比较大的时候手工填入空缺的值枯燥、费时,可操作性差,不推荐使用使用一个全局的常量填充空缺数值给定一个固定的属性值如:未知、不祥、Unknown、Null等简单,但是没有意义精选课件2024/4/1610

《数据挖掘的清洗》 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数46
  • 收藏数0 收藏
  • 顶次数0
  • 上传人相惜
  • 文件大小2.51 MB
  • 时间2024-04-16