下载此文档

数据清洗需求设计V.doc


文档分类:研究报告 | 页数:约10页 举报非法文档有奖
1/10
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/10 下载此文档
文档列表 文档介绍
The Standardization Office was revised on the afternoon of December 13, 2020
数据清洗需求设计V
数据清洗(时间序列数据TSD(time记录错误。这类错误则可以使用多种方法去审核。
一般数据都符合正态分布的规律,如果一些占比少的数据存在问题,则可以通过比较其他数量少的数据比例,来做出判断。
及时性 Timeliness
不同的应用场景对数据的及时性要求不同,在线控制条件下,假如某个关键性的输入数据无法及时获得,会影响后后续的过程控制。在事后分析中,对及时性的要求就大大降低。
合理性 Validation
关联性 Integration
绝对质量
过程质量
数据标注的方法
源数据序列ODS
N = Normal 正常
U = Unchecked 未检验
E = Estimated 估计数据
M = Missing 丢失数据
生产数据序列 PDS
G = Good 优质
E = Estimated 估计,包括自动修改及人工修改,标注方法
S = Suspect 可疑数据
U = Unchecked 未检查
L = Loss 丢失数据
M = Manual input 人工输入数据
C = CheckPoint 质控检查点(用于和鸿海配合)
衍生时序数据 DDS
D = Derived 衍生的,这个部分设计请参考测点数据管理(计算任务)
数据标记除了上述表述数据分析结果的项次外,建议还记录标记数据的算法名称、版本、计算时间等。
对时间序列数据整体质量的定义
时间序列数据表现为按照一定频率不断记录的数据,如每秒记录1次的时间序列数据在1小时内会有3600个记录,每分钟记录1次的数据每天会有1440个记录。需要有一种方法整体性的评估某个时间区间内的时间序列数据的整体质量。
例如:某个采集频率为1/min的源数据在10天时间内的整体数据质量,根据自动检验的方法检验后,结果为:正常%,丢失%,估计数据%,检测率100%;没有经过自动检测的数据,统计标记为未检测。
某个采集频率为1/min的生产序列数据在10天时间内的整体数据质量,根据自动检验的方法检验后,结果为:优质%,估计%,可疑% ,检测率100%;没有经过自动检测的数据,统计标记为未检测。
根据数据的自动检测情况,可以将源数据或者生产序列数据分类为优质、正常、较差、不可用等类别【这个部分尚需讨论】。
在后续的大数据分析中,如果采用了较差、不可用等标记的数据,会极大的影响分析结果,导致错误的结论。
用于在线控制的数据清洗功能
在线数据清洗的基本功能如下:
数据清洗任务应该在轮巡任务中,循环一周,该任务就会执行一次。
该场景下的数据清洗任务主要是目标是加工生成:生产序列数据。
如当前某测点的检测结果生成的数据标记,对应措施如下表:
数据标记
措施
风险
类型
G
采用原值

PDS
E
采用估计值
较小
PDS
S
采用上一个标记为G的原值
较小

数据清洗需求设计V 来自淘豆网www.taodocs.com转载请标明出处.