下载此文档

数据挖掘数据预处理.ppt


文档分类:IT计算机 | 页数:约158页 举报非法文档有奖
1/158
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/158 下载此文档
文档列表 文档介绍
2018/1/25
第二章数据预处理
2018/1/25
1
为什么要进行数据挖掘?
现实世界的数据是脏的
不完整: 缺乏属性值,缺乏有意义的属性,或者只包含了汇总数据
., occupation=“”
有噪声: 包含错误的数据或异常值
., Salary=“-10”
不一致: 在代码或者名字中存在矛盾或不一致
., Age=“42” Birthday=“03/07/1997”
., Was rating “1,2,3”, now rating “A, B, C”
., discrepancy between duplicate records
2018/1/25
2
为什么数据预处理重要?
No quality data, no quality mining results!
Quality decisions must be based on quality data
., duplicate or missing data may cause incorrect or even misleading statistics.
Data warehouse needs consistent integration of quality data
Data extraction, cleaning, and prises the majority of the work of building a data warehouse
2018/1/25
3
2018/1/25
4
数据预处理的主要内容:
2018/1/25
数据预处理的主要内容
一、原始数据的表述
二、数据清理
三、数据变换
四、元组的归约
五、属性的归约
2018/1/25
5
数据样本是数据挖掘过程的基本组成部分。
一、原始数据的表述
2018/1/25
6
每个样本都用几个特征来描述,每个特征有不同类型的值。
2018/1/25
2018/1/25
常见的数据类型有:数值型和分类型。
数值型包括实型变量和整型变量
注:具有数值型值的特征有两个重要的属性:其值有顺序关系和距离关系。
7
2018/1/25
2018/1/25
一个有两个值的分类型变量:
分类型变量的两个值可以平等或不平等。
原则上可以转化成一个二进制的数值型变量,这种数值型变量有两个值:0或1;
而有N值的分类型变量原则上可以转化成一个二进制的数值型变量,这种数值型变量有N个值。
8
2018/1/25
2018/1/25
例如:如果变量“眼睛颜色”有4个值:黑色、蓝色、绿色、褐色。
特征值编码
黑色 1000
蓝色 0100
绿色 0010
褐色 0001
9
2018/1/25
2018/1/25
变量的分类:连续型变量和离散型变量。
连续型变量也认为是定量型或是量度型,是指在一定区间内可以任意取值的变量。
离散型变量也叫定性型变量,是指全部可能取到的不相同的值是有限个的变量。
注:一种特殊类型的离散型变量是周期变量,例如:星期、月和年中的日期。
10

数据挖掘数据预处理 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数158
  • 收藏数0 收藏
  • 顶次数0
  • 上传人iluyuw9
  • 文件大小6.59 MB
  • 时间2018-01-25