1第二章数据预处理主讲教师:魏宏喜(博士,副教授) E-mail: ******@imu. 2第二章数据预处理?为什么对数据进行预处理?数据清理?数据集成和变换?数据归约 3第二章数据预处理?为什么对数据进行预处理?数据清理?数据集成和变换?数据归约 4为什么进行数据预处理? ?现实世界的数据是“脏的”——数据多了,什么问题都会出现。?不完整?缺少数据值;缺乏某些重要属性;仅包含汇总数据; ? ., occupation="" ?有噪声?包含错误或者孤立点? ., Salary = -10 ?数据不一致? ., 在编码或者命名上存在差异? ., 过去的等级: “ 1,2,3 ”, 现在的等级: “ A, B, C ”? ., 户籍系统中的身份证号前后不一致? ., Age= “ 42 ” Birthday= “ 03/07/1997 ” 5数据为什么会变“脏”? ?数据不完整的成因?数据收集的时候就缺乏合适的值?数据收集时和数据分析时的不同考虑因素?“人为/硬件/软件”的问题?噪声数据(不正确的值)的成因?数据收集工具的问题?数据输入时的“人为/计算机”造成的错误?数据传输中产生的错误?数据不一致性的成因?不同的数据源?违反了某种一致性原则 6数据预处理为什么是重要的? ?没有高质量的数据,就没有高质量的挖掘结果。?高质量的决策必须依赖高质量的数据。? . 重复值或者空缺值将会产生不正确的挖掘结果。?数据预处理是数据挖掘过程中占工作量最大的一个步骤。(60% 的工作量) 7数据质量的多维度量?一个广为认可的多维度量观点: ?精确度?完整度?一致性?可信度?附加价值?可解释性 8数据预处理的主要任务?数据清理?填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不一致性。?数据集成?集成多个数据库或文件。?数据变换?规范化——将数据规范化到统一的范围内。?数据归约?得到数据集的压缩表示,它比原始数据集小得多, 但可以得到相同或相近的挖掘结果。 910 第二章数据预处理?为什么对数据进行预处理?数据清理?数据集成和变换?数据归约
2 数据预处理 来自淘豆网www.taodocs.com转载请标明出处.