下载此文档

数据清洗需求设计V1.1.doc


文档分类:研究报告 | 页数:约7页 举报非法文档有奖
1/7
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/7 下载此文档
文档列表 文档介绍
数据清洗(时间序列数据TSD(timeseriesData)需求设计DataCleaningModuleDCM应该属于DAX的一个模块。数据清洗的目的原始采集的数据会受到传感器、变送器、信号传输、环境干扰(电磁、潮湿、高热)、人为造假等各种因素的影响,数据中会包含一些受到“污染”的数据。如果直接利用这些数据进行控制、绘图、制表、数据分析、数据挖掘,则不可避免的会影响分析过程和结果,总的来说:低质量的数据无法获得高质量的分析结果。任何规模的数据在分析以前,有必要对原始数据进行预处理,以使其达到必要的质量,这个过程我们称之为数据清洗。数据清洗后,一般有两类用途,一是直接用于在线过程控制,二是用于事后分析。那些数据需要清洗任何直接采集的数据都需要进行清洗,利用清洗程序对数据处理后,会对数据的各种缺陷进行标记,对发现的有缺陷的数据进行抛弃、估计、修改。很多工厂由于缺乏数据清洗这个环节,会大大影响过程控制的可靠性。低质量的数据,在事后分析时会带来很大的困难。不少环境监测类的投资,由于缺乏数据质量控制和数据清洗技术,会使投资回报大大降低。通用性设计常见的原始数据问题数据缺失跳点干扰(白噪声或其它)漂移(线性与非线性)超限滞后造成的时间不同步逻辑缺失(因果关系、相关关系)数据检验的方法上下限制检验法斜率检验法差值检验法频率检验法时间区间检验法人工数据修正关系检验(因果、相关性)数据处理的方法删除法补差法取前点均值插补回归插补极大似然估计回归法均值平滑法离群点分析小波去噪人工修改对时间序列数据的定义源数据序列(OriginTSD):一般保存人工采集导入和自动测报采集的原始数据,为确保该类型数据安全,数据设置只读。生产时序数据(ProductionTSD):拷贝自源数据,加以校核和清洗。对数据的常规维护通常在这类序列上进行。衍生时序数据(DerivedTSD):一般是通过一些标准方法计算的统计序列,例如日月年特征值等。数据处理数据处理的过程是通过数据计算任务来执行,数据清洗属于计算任务的一部分。用于在线过程控制的计算任务,此类计算任务的执行实时性高,例如AVS,少人无人值守控制平台,计算任务在常规自控的轮询周期中。一般的刷新率是秒级或毫秒级。此类计算任务最好在PLC中处理,如无法再PLC中处理,就在上位机进行计算。进行数据清洗的计算任务,一般属于此类,计算是实时进行。用于事后分析的计算任务,此类计算任务的实时性不高,用途主要是数据分析,例如各类KPI、周期性的数据整理、各类自定义的计算等等,大数据分析通常也是利用这些数据。此类数据的计算任务实时性不高,可以在事后按照固定的周期或者条件进行。数据质量(DQ)的定义:pleteness完整性指的是数据信息是否存在缺失的状况,数据缺失的情况可能是整个数据记录缺失,也可能是数据中某个字段信息的记录缺失。不完整的数据所能借鉴的价值就会大大降低,也是数据质量最为基础的一项评估标准。一致性Consistency一致性是指数据是否遵循了统一的规范(这些规范可以是格式,数位,或者是数据的统计性特征),研判数据集合是否保持了统一的规范。数据质量的一致性主要体现在数据记录的规范和数据是否符合逻辑。规范可以特指:一项数据存在它特定的格式,例如手机号码一定是13位的数字,IP地址一定是由4个0到255间的数字加上”.”组成的。规范也可以特指,多

数据清洗需求设计V1.1 来自淘豆网www.taodocs.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数7
  • 收藏数0 收藏
  • 顶次数0
  • 上传人cby201601
  • 文件大小38 KB
  • 时间2020-06-12