下载此文档

2 数据预处理.ppt


文档分类:IT计算机 | 页数:约35页 举报非法文档有奖
1/35
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/35 下载此文档
文档列表 文档介绍
1第二章数据预处理主讲教师:魏宏喜(博士,副教授) E-mail: ******@imu. 2第二章数据预处理?为什么对数据进行预处理?数据清理?数据集成和变换?数据归约 3第二章数据预处理?为什么对数据进行预处理?数据清理?数据集成和变换?数据归约 4为什么进行数据预处理? ?现实世界的数据是“脏的”——数据多了,什么问题都会出现。?不完整?缺少数据值;缺乏某些重要属性;仅包含汇总数据; ? ., occupation="" ?有噪声?包含错误或者孤立点? ., Salary = -10 ?数据不一致? ., 在编码或者命名上存在差异? ., 过去的等级: “ 1,2,3 ”, 现在的等级: “ A, B, C ”? ., 户籍系统中的身份证号前后不一致? ., Age= “ 42 ” Birthday= “ 03/07/1997 ” 5数据为什么会变“脏”? ?数据不完整的成因?数据收集的时候就缺乏合适的值?数据收集时和数据分析时的不同考虑因素?“人为/硬件/软件”的问题?噪声数据(不正确的值)的成因?数据收集工具的问题?数据输入时的“人为/计算机”造成的错误?数据传输中产生的错误?数据不一致性的成因?不同的数据源?违反了某种一致性原则 6数据预处理为什么是重要的? ?没有高质量的数据,就没有高质量的挖掘结果。?高质量的决策必须依赖高质量的数据。? . 重复值或者空缺值将会产生不正确的挖掘结果。?数据预处理是数据挖掘过程中占工作量最大的一个步骤。(60% 的工作量) 7数据质量的多维度量?一个广为认可的多维度量观点: ?精确度?完整度?一致性?可信度?附加价值?可解释性 8数据预处理的主要任务?数据清理?填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不一致性。?数据集成?集成多个数据库或文件。?数据变换?规范化——将数据规范化到统一的范围内。?数据归约?得到数据集的压缩表示,它比原始数据集小得多, 但可以得到相同或相近的挖掘结果。 910 第二章数据预处理?为什么对数据进行预处理?数据清理?数据集成和变换?数据归约

2 数据预处理 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数35
  • 收藏数0 收藏
  • 顶次数0
  • 上传人yixingmaoh
  • 文件大小317 KB
  • 时间2017-02-20