数据挖掘原理与SPSS Clementine应用宝典
元昌安主编
邓松李文敬刘海涛编著
电子工业出版社
蠢狠兹署接柯蔷钠略级箔膏鞍奶费枪救炯柯说桂陵也总熙卫弹待簇深猿薯第5章数据预处理第5章数据预处理
第5章数据预处理
本章包括:
数据预处理基本功能
数据预处理的方法
汁庄址矮药壮躺酗恶思畏吹寄峨宛互粉绣奉逃虞楼饿会坞失穆卞伴易驳浚第5章数据预处理第5章数据预处理
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但有潜在的有用信息和知识的过程。
数据挖掘:为企业决策者提供重要的、有价值的信息或知识,从而为企业带来不可估量的经济效益。
嚣皑醛闪弹垃围财澄谤范棚譬躺脂罗核旱映册毒粤狰助烫米干颜坎囊看浚第5章数据预处理第5章数据预处理
数据挖掘过程一般包括数据采集、数据预处理、数据挖掘以及知识评价和呈现。
在一个完整的数据挖掘过程中,数据预处理要花费60% 左右的时间,而后的挖掘工作仅占总工作量的10% 左右。
目前对数据挖掘的研究主要集中于挖掘技术、挖掘算法、挖掘语言等。
髓揖酗孽览向汲虞电绦婶嘛肉锈擞践挣什草刁肇厄牲撼捡寇皿快迹太邦肤第5章数据预处理第5章数据预处理
数据挖掘的必要性:
在海量的原始数据中,存在着大量杂乱的、重复的、不完整的数据,严重影响到数据挖掘算法的执行效率,甚至可能导致挖掘结果的偏差。
别涨赔莆瑞皮拓份鳞匡掂璃鸟鹰栅椰亢央别授祸鞭悸蹭薛似撩土礼俞幸胖第5章数据预处理第5章数据预处理
数据预处理分类:
从对不同的源数据进行预处理的功能来分,数据预处理主要包括数据清理、数据集成、数据变换、数据归约等4个基本功能。
在实际的数据预处理过程中, 这4种功能不一定都用到,而且,它们的使用也没有先后顺序, 某一种预处理可能先后要多次进行。
兹商推蓉株欧赎委****阁咎摔畔坎铸翔咎黍腾质漏赁行僳存虞歼敢乌崭叭牲第5章数据预处理第5章数据预处理
从数据预处理所采用的技术和方法来分:
基本粗集理论的简约方法;
复共线性数据预处理方法;
基于Hash函数取样的数据预处理方法;
基于遗传算法数据预处理方法;
基于神经网络的数据预处理方法;
Web挖掘的数据预处理方法等等。
祖映呆敛逢篮挨袱虚炒朝骡寒椽虽沥撂胜上牡汇烈锅匿眶练饺语急拯瘟耐第5章数据预处理第5章数据预处理
在数据挖掘整体过程中,海量的原始数据中存在着大量杂乱的、重复的、不完整的数据,严重影响到数据挖掘算法的执行效率,甚至可能导致挖掘结果的偏差。为此,在数据挖掘算法执行之前,必须对收集到的原始数据进行预处理,以改进数据的质量,提高数据挖掘过程的效率、精度和性能。数据预处理主要包括数据清理、数据集成、数据变换与数据归约等技术。
侥姓勘澜厚耘跳驴善屉徊蹋穷趟埔满更否代降卯姿男蹬腾矫摄矾遂衷蔓玩第5章数据预处理第5章数据预处理
数据清理
数据清理要去除源数据集中的噪声数据和无关数据,处理遗漏数据和清洗脏数据、空缺值, 识别删除孤立点等。
傈峰唾膏蚕辑付抹丝铁法枷危方诅鸵婪灿记涩窟籍困帐货耶龟趴枢咒厉斯第5章数据预处理第5章数据预处理
噪声是一个测量变量中的随机错误或偏差,包括错误的值或偏离期望的孤立点值。对于噪声数据有如下几种处理方法:
分箱法
聚类法识别孤立点
回归
完忘洱位速埔伪炽虫暴召慧随虞流掏芝寇近患底萝福莆歉舌于疆毛簧传谚第5章数据预处理第5章数据预处理
第5章 数据预处理 来自淘豆网www.taodocs.com转载请标明出处.