数据中台
什么是数据中台
数据中台定义
数据中台必备的4个核心能力
数据体系规划
贴源数据层建设——全域数据统一存储
数据汇聚联通:打破企业数据孤岛
数据交换
数据源管理
离线数据交换
全量同步
增量同步
任务调度
数据资产管理
数据资产的定义和3个特征
数据资产管理现状和挑战
数据资产管理的4个目标
数据资产管理在数据中台架构中的位置
数据治理
数据资产管理与数据治理的关系
数据资产管理职能
数据资产管理效果评估
富深协通在线文档协作平台
-
+
首页
贴源数据层建设——全域数据统一存储
贴源数据层会对财政部门各业务系统数据进行汇聚整合,保留财政全量业务原始数据,并作为统一数仓层建设的数据源。贴源数据层数据不仅是业务数据库中产生的数据,跟财政部门相关的所有数据都应该汇聚到贴源数据层,包括业务系统数据、业务运行的日志数据、机器运转产生的日志数据、网络爬虫或者其他方式获取的外部数据。 数据中台的贴源数据层数据获取方式与传统数仓的ETL(Extract- Transform-Load)过程类似,但也有不同。传统数仓的ETL过程是在抽 取(Extract)和装载(Load)的过程中进行清洗转换(Transform)操作,装载到数仓的是被清洗转换后的数据。这样的方式如果转换规则复杂,就会导致在ETL过程中消耗大量的计算资源,另外如果转换有错误,由于没有保留原始数据,则会导致在数仓层面无法追溯问题。进入大数据时代,由于存储成本降低和数据量增大,导致ETL过程中的复杂处理非常耗时,因此建议采用ELT(Extract-Load-Transform)方式,即将所有原始数据都抽取到数据中台的贴源数据层,在数据中台内部再利用大数据底层平台的计算能力进行转换操作。这样既可让数据的抽取过 程尽可能简单,又保留了所有的原始数据,以便于问题的追溯,还能充分利用大数据的计算能力。下图所示为数据中台数据抽取并进行转换的过程。  数据中台数据抽取转换过程 按照数据结构类型的不同,贴源数据可以分为三类: - 结构化数据:主要是关系型数据库中的数据,直接从业务系统DB抽取 到贴源数据层。 - 半结构化数据:一般是纯文本数据,以各种日志数据为主,半结构化 数据保留贴源数据的同时也做结构化处理,为后续使用做准备。 - 非结构化数据:主要是图片、音频、视频,一般保留在文件系统中, 由于这类数据量一般比较庞大,而且没有太多挖掘分析价值,所以贴源 数据层不保留原始文件,只保留对原始数据文件的描述,比如地址、名 称、类型、分辨率等。
汤泽波
2022年10月31日 17:20
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
PDF文档
PDF文档(打印)
分享
链接
类型
密码
更新密码