下载此文档

第5章 数据预处理.ppt


文档分类:IT计算机 | 页数:约98页 举报非法文档有奖
1/98
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/98 下载此文档
文档列表 文档介绍
数据挖掘原理与SPSS Clementine应用宝典
元昌安主编
邓松李文敬刘海涛编著
电子工业出版社
第5章数据预处理
本章包括:
数据预处理基本功能
数据预处理的方法
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但有潜在的有用信息和知识的过程。
数据挖掘:为企业决策者提供重要的、有价值的信息或知识,从而为企业带来不可估量的经济效益。
数据挖掘过程一般包括数据采集、数据预处理、数据挖掘以及知识评价和呈现。
在一个完整的数据挖掘过程中,数据预处理要花费60% 左右的时间,而后的挖掘工作仅占总工作量的10% 左右。

目前对数据挖掘的研究主要集中于挖掘技术、挖掘算法、挖掘语言等。
数据挖掘的必要性:
在海量的原始数据中,存在着大量杂乱的、重复的、不完整的数据,严重影响到数据挖掘算法的执行效率,甚至可能导致挖掘结果的偏差。
数据预处理分类:
从对不同的源数据进行预处理的功能来分,数据预处理主要包括数据清理、数据集成、数据变换、数据归约等4个基本功能。
在实际的数据预处理过程中, 这4种功能不一定都用到,而且,它们的使用也没有先后顺序, 某一种预处理可能先后要多次进行。
从数据预处理所采用的技术和方法来分:
基本粗集理论的简约方法;
复共线性数据预处理方法;
基于Hash函数取样的数据预处理方法;
基于遗传算法数据预处理方法;
基于神经网络的数据预处理方法;
Web挖掘的数据预处理方法等等。

在数据挖掘整体过程中,海量的原始数据中存在着大量杂乱的、重复的、不完整的数据,严重影响到数据挖掘算法的执行效率,甚至可能导致挖掘结果的偏差。为此,在数据挖掘算法执行之前,必须对收集到的原始数据进行预处理,以改进数据的质量,提高数据挖掘过程的效率、精度和性能。数据预处理主要包括数据清理、数据集成、数据变换与数据归约等技术。
数据清理
数据清理要去除源数据集中的噪声数据和无关数据,处理遗漏数据和清洗脏数据、空缺值, 识别删除孤立点等。

噪声是一个测量变量中的随机错误或偏差,包括错误的值或偏离期望的孤立点值。对于噪声数据有如下几种处理方法:
分箱法
聚类法识别孤立点
回归

第5章 数据预处理 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数98
  • 收藏数0 收藏
  • 顶次数0
  • 上传人zhangbing32159
  • 文件大小0 KB
  • 时间2014-02-13