下载此文档

数据清洗需求设计V1.docx


文档分类:研究报告 | 页数:约6页 举报非法文档有奖
1/6
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/6 下载此文档
文档列表 文档介绍
数据清洗(时间序列数据TSD (time series Data)需求设计
Data Cleaning Module
DCM应该属于DAX的一个模块。
1、数据清洗的目的
原始采集的数据会受到传感器、变送器、信号传输、环境干扰(电磁据的及时性要求不同,在线控制条件下,假如某个关键性 的输入数据无法及时获得,会影响后后续的过程控制。在事后分析中,对及时性的 要求就大大降低。
合理性 Validation
关联性 Integration
绝对质量
过程质量
数据标注的方法
源数据序列ODS
N = Normal 正常
U = Unchecked 未检验
E = Estimated 估计数据
M = Missing 丢失数据
生产数据序列PDS
G
= Good
优质
E
= Estimated
估计,包括自动修改及人工修改,标注方法
S
= Suspect
可疑数据
U
= Unchecked
未检查
L
=Loss
丢失数据
M
=Manual input
人工输入数据
C
=Checkpoint
质控检查点(用于和鸿海配合)
衍生时序数据DDS
D = Derived 衍生的,这个部分设计请参考测点数据管理(计算任务)
数据标记除了上述表述数据分析结果的项次外,建议还记录标记数据的算法名称、版本、 计算时间等。
对时间序列数据整体质量的定义
时间序列数据表现为按照一定频率不断记录的数据,如每秒记录1次的时间序列数据在 1小时内会有3600个记录,每分钟记录1次的数据每天会有1440个记录。需要有一种方法 整体性的评估某个时间区间内的时间序列数据的整体质量。
例如:某个采集频率为1/min的源数据在10天时间内的整体数据质量,根据自动检验 的方法检验后,结果为:%,%,%,检测率100%;没有经 过自动检测的数据,统计标记为未检测。
某个采集频率为1/min的生产序列数据在10天时间内的整体数据质量,根据自动检验 的方法检验后,结果为:%,%,% ,检测率100%;没有经过自 动检测的数据,统计标记为未检测。
根据数据的自动检测情况,可以将源数据或者生产序列数据分类为优质、正常、较差、 不可用等类别【这个部分尚需讨论】。
在后续的大数据分析中,如果采用了较差、不可用等标记的数据,会极大的影响分析结 果,导致错误的结论。
用于在线控制的数据清洗功能
在线数据清洗的基本功能如下:
数据清洗任务应该在轮巡任务中,循环一周,该任务就会执行一次。
该场景下的数据清洗任务主要是目标是加工生成:生产序列数据。
如当前某测点的检测结果生成的数据标记,对应措施如下表:
数据标记
措施
风险
类型
G
采用原值

PDS
E
采用估计值
较小
PDS
S
采用上一个标记为G的原值
较小
PDS
U
不做清洗处理,采用原值

PDS
M


4)每个控制器既可以有自控程序判断启动,也可以由人工启动(S2);
5)当前控制器的某一路信号被判断为不可信时,系统可以用虚拟信号替代(S2)
6) 需要有一张图,可以呈现所有的控制器的在用状态,最好

数据清洗需求设计V1 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数6
  • 收藏数0 收藏
  • 顶次数0
  • 上传人zhangshut
  • 文件大小15 KB
  • 时间2022-07-23