下载此文档

数据交换过程详解.docx


文档分类:IT计算机 | 页数:约17页 举报非法文档有奖
1/17
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/17 下载此文档
文档列表 文档介绍
数据交换过程详解
前言:
本文主要介绍数据交换过程中常用的数据交换方法和方式以及数据交换在新技术下所 面对的“挑战”,方便大家深入理解数据交换过程。普元实施数据交换项目已有多年成功经 验,本文也将分享大数据时代数据交换所遇到的问题和应对也 无法控制,是谁拷贝了信息也无法掌控。一旦出现信息泄露,无法追责。统一指标数据标准, 可以规范业务统计分析语言,帮助企业提升分析应用和监管报送的数据质量,进而提高全行 数据质量和数据资产价值。
2自动采集元数据
数据交换依托于元数据,数据交换的本质是基于元数据的交换。对半结构化和结构化数 据自动采集。
元数据是关于数据、操纵数据的数据和数据库系统的结构和意义的描述信息, 重要目标就是提供数据资源的全面指南。元数据不仅定义了数据交换中的数据模式、 来源以及抽取转换规则等,而且整个数据交换系统的运行都应该是基于元数据的, 是元数据把数据交换系统中各个松散的组件联系起来,组成了一个有机的整体。通 过自动化的元数据采集完成部门核心职能的业务梳理及其对应的信息资源梳理,编 制部门信息资源目录,摸清信息资源有什么、在哪里,提高信息资源共享程度,建 立信息资源共享机制和管理制度。结合企业内部信息系统中的数据现状和企业业务 属性、技术属性的要求形成企业数据标准的业务属性和技术属性,制定有效合理的 指标数据规范要求。

不同类型数据交换方式
新的数据交换平台提供数据、报文文件等多种数据交换服务,能够快速建立跨 硬件平台、数据库和操作系统的可交互操作的数据交换与信息共享平台,交换平台 提供了一个开放的环境,支持多样的客户机、数据库、网络和通讯协议,通过可视 化配置实现与数据库、文件以及web接口的数据交互。使得数据交换与业务逻辑的 个性有机结合,快速响应数据集成和外部数据交换的需求。
数据交换的方式一般是根据数据的类型来进行区分,如结构化或半结构化的数 据可通过ETL的数据交换方式进行,非结构化的数据像压缩文件、电影、图片等采 用文件传输的方式进行交换,而对于一些实时性较高的交换一般采用接口形式进行。 例如:restfull、webservice等。结构化数据交换方法结构化和半结构化数据交换
数据中心
时间戮 全文比对 触发器 CDC增量 全量同步
主要有:时间戳同步、全文比对同步、触发器同步、CDC增量同步、全量同步。
Oracle Mysql SqIServer
MongoDB
HBase
S Hive
这里我们对几种做一个比较:
全量同步
全量抽取一般适用于统计分析或无需进行二次更新的业务需求,通过全量抽取一次 或多次将业务系统数据源在不做任何操作的情况下直接抽取过来,全量数据抽取方 式虽然较简单、直接、快速。通过系统中的采集组件,无需增加过滤条件,即可对 数据库中的全量文件进行一次性采集。全量采集比较适合于数据业务量小的业务需 求。这种方式不能增量的进行数据同步,对于大数据量下的同步并不适用。
时间戳同步
使用这种方式进行增量数据抽取的前提是源数据库与目标数据库都必须有时间戳字 段。先读取目标数据库中的最大时间,然后以这个时间作为参数从源数据库中读取 大于这个时间的所有数据。基于时间戳的方法需要相关应用系统中的每个表中都有 一个时间戳字段,以记录每个表的修改时间。这种方法不影响原有应用的运行效率, 但如果表中没有时间戳的字段却需要对原有系统做较大的调整,这种方式不能捕获 到那些并非通过应用系统引起的操作数据变化。
优点:处理谏度快,数据处理逻辑相对简单。
缺点:源数据库没有时间戳字段的表需要更改表结构,而且需要源数据库来维护时 间戳字段;无法实现数据同步,因为使用时间戳字段无法获取删除后的数据。
CDC增量同步
通过分析数据库日志的信息来捕获复制对象的变化序列。这种方法不仅方便,也不 会占用太多额外的系统资源,对任何类型的复制都适合,不但能提高效率和保证数 据的完整性,还能在对等式复制时提供详细的控制信息。但由于数据库日志的格式 是不公开的,因而不得不基于某一固定的数据库日志分析工具或接口,这给异构数 据库复制带来了问题。
优点:可靠性强,对源系统没有影响。
缺点—各数据库系统的日志文件绝大部分都是私有的,并且日志格式都不一样,因 此捕获这些日志需要有专门有针对性的组件来进行,个别数据库还需要管理员权限 进行配合才能实现。对于没有提供日志分析接口的数据源,开发的难度比较大 触发器同步
在业务数据表中创建相应的触发器,当提取、复制对象进行变更(插入、修改、删 除)时,由触发器触发提数程序,将变化写入目标数据库中。这种方案可用于同步 复制、增量复制。
优点:借助数据库本身的机制,可靠性强。
缺点:对源系统有影响,需要建

数据交换过程详解 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数17
  • 收藏数0 收藏
  • 顶次数0
  • 上传人maritime_4
  • 文件大小371 KB
  • 时间2022-06-22