下载此文档

数据清洗需求设计(共6页).docx


文档分类:IT计算机 | 页数:约7页 举报非法文档有奖
1/7
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/7 下载此文档
文档列表 文档介绍
精选优质文档-----倾情为你奉上
精选优质文档-----倾情为你奉上
专心---专注---专业
专心---专注---专业
精选优质文档-----倾情为你奉上
专心---专注---专业
数据清洗(时间序列数据TSD(time s不仅仅只是规则上的不一致。最为常见的数据准确性错误就如乱码。其次,异常的大或者小的数据也是不符合条件的数据。
一般而言,仅仅靠一些简单规则无法判断数据的准确性,通常会借助人工或自动系统的检验,或者在检测过程中增加一些标准样的测量。比较特定样品的检测值就可以判断该批次检测的数据质量。
数据质量的准确性可能存在于个别记录,也可能存在于整个数据集,例如数量级记录错误。这类错误则可以使用多种方法去审核。
一般数据都符合正态分布的规律,如果一些占比少的数据存在问题,则可以通过比较其他数量少的数据比例,来做出判断。
及时性 Timeliness
不同的应用场景对数据的及时性要求不同,在线控制条件下,假如某个关键性的输入数据无法及时获得,会影响后后续的过程控制。在事后分析中,对及时性的要求就大大降低。
合理性 Validation
关联性 Integration
绝对质量
过程质量
数据标注的方法
源数据序列ODS
N = Normal 正常
U = Unchecked 未检验
E = Estimated 估计数据
M = Missing 丢失数据
精选优质文档-----倾情为你奉上
精选优质文档-----倾情为你奉上
专心---专注---专业
专心---专注---专业
精选优质文档-----倾情为你奉上
专心---专注---专业
生产数据序列 PDS
G = Good 优质
E = Estimated 估计,包括自动修改及人工修改,标注方法
S = Suspect 可疑数据
U = Unchecked 未检查
L = Loss 丢失数据
M = Manual input 人工输入数据
C = CheckPoint 质控检查点(用于和鸿海配合)
衍生时序数据 DDS
D = Derived 衍生的,这个部分设计请参考测点数据管理(计算任务)
数据标记除了上述表述数据分析结果的项次外,建议还记录标记数据的算法名称、版本、计算时间等。
对时间序列数据整体质量的定义
时间序列数据表现为按照一定频率不断记录的数据,如每秒记录1次的时间序列数据在1小时内会有3600个记录,每分钟记录1次的数据每天会有1440个记录。需要有一种方法整体性的评估某个时间区间内的时间序列数据的整体质量。
例如:某个采集频率为1/min的源数据在10天时间内的整体数据质量,根据自动检验的方法检验后,结果为:%,%,%,检测率100%;没有经过自动检测的数据,统计标记为未检测。
某个采集频率为1/min的生产序列数据在10天时间内的整体数据质量,根据自动检验的方法检验后,结果为:%,%,% ,检测率100%;没有经过自动检测的数据,统计标记为未检测。
根据数据的自动

数据清洗需求设计(共6页) 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数7
  • 收藏数0 收藏
  • 顶次数0
  • 上传人bb21547
  • 文件大小24 KB
  • 时间2022-03-30