下载此文档

数据预处理实用教案.ppt


文档分类:IT计算机 | 页数:约40页 举报非法文档有奖
1/40
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/40 下载此文档
文档列表 文档介绍
主要(zhǔyào)内容
为什么要预处理数据(shùjù)?
数据(shùjù)清理
数据(shùjù)集成和变换
数据(shùjù)归约
第1页/共39页
第一页,共40页。
为什么要预处理数据(shùjù)?
现实世界的数据是“肮脏的”
不完整的:有些感兴趣的属性缺少属性值,或仅包含聚集数据
含噪声(zàoshēng)的:包含错误或者“孤立点”
不一致的:数据源不同,其在编码或命名上有差异
没有高质量的数据,就没有高质量的挖掘结果
高质量的决策必须依赖高质量的数据
数据仓库需要对高质量的数据进行一致地集成
第2页/共39页
第二页,共40页。
数据(shùjù)质量的多维度量
一个广为认可的多维度量观点:
精确度
完整度
一致性
合乎时机
可信度
附加价值(已经(yǐ jing)物化的数据,方便我们挖掘研究)
可访问性
跟数据本身的含义相关的
内在的、上下文相关的、数据的表达形式
第3页/共39页
第三页,共40页。
数据(shùjù)预处理的主要任务
数据清理
填写空缺的值,平滑噪声数据,识别、删除孤立点,解决(jiějué)不一致性
数据集成
集成多个数据库、数据立方体或文件
数据变换
规范化和聚集
数据归约
通过一些技术(概念分层上卷等)得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果
数据离散化
数据归约的一部分,通过概念分层和数据的离散化来规约数据,对数字型数据特别重要
第4页/共39页
第四页,共40页。
数据(shùjù)预处理的形式
第5页/共39页
第五页,共40页。
数据(shùjù)清理
第6页/共39页
第六页,共40页。
空缺(kòngquē)值
数据并不总是完整的
例如:数据库表中,很多条记录的对应字段没有相应值,比如销售表中的顾客收入
引起空缺值的原因
设备异常(yìcháng)
与其他已有数据不一致而被删除
因为误解而没有被输入的数据
在输入时,有些数据因为得不到重视而没有被输入
对数据的改变没有进行日志记载(事务操作都会被日志文件记载,每次修改操作需要查找日志)
空缺值要经过推断而补上,否则算法中断报错
第7页/共39页
第七页,共40页。
如何处理空缺(kòngquē)值?常用方法如下:
直接忽略掉空缺值的整个属性或元组:当类标号缺少时通常这么做(假定挖掘任务(rèn wu)设计分类或描述),当每个属性缺少值的百分比变化很大时,其效果非常差。
人工填写空缺值:工作量大,可行性低
使用一个全局变量填充空缺值:比如使用unknown或-∞
使用属性的平均值填充空缺值
使用与给定元组属同一类的所有样本的平均值
使用最可能的值填充空缺值(基于数学算法):使用像Bayesian公式或判定树这样的基于模型推断的方法
第8页/共39页
第八页,共40页。
噪声(zàoshēng)数据
噪声:一个测量变量中的随机错误或偏差
引起不正确属性值的原因
数据收集工具不够精确引起的问题
数据输入错误
数据传输错误(通信协议问题)
技术限制
命名规则的不一致
其它需要(xūyào)数据清理的数据问题
重复记录(引起冗余)
不完整的数据
不一致的数据
第9页/共39页
第九页,共40页。
如何处理噪声(zàoshēng)数据
分箱(binning):
首先排序数据,并将其分到等深箱中(容放相等个数数据)
然后可以按箱的平均值平滑、按箱中值平滑、按箱的边界平滑等等(děnɡ děnɡ),从而达到平滑噪声的目的
聚类:
监测并且去除孤立点
计算机和人工检查结合
计算机检测可疑数据,然后对其进行人工判断(工作量大)
回归
通过让数据适应回归函数来平滑数据
第10页/共39页
第十页,共40页。

数据预处理实用教案 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数40
  • 收藏数0 收藏
  • 顶次数0
  • 上传人wz_198613
  • 文件大小1.02 MB
  • 时间2021-12-01