我的编程空间,编程开发者的网络收藏夹
学习永远不晚

数据中台架构体系浅析

短信预约 信息系统项目管理师 报名、考试、查分时间动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

数据中台架构体系浅析

中台出现的背景

从技术上来看,随着业务的发展,很多企业在前期搭建了很多的IT系统,系统间像烟囱一样相互独立。在面对着越来越复杂的业务,越来越多的数据,企业IT在扩展旧系统上出现了一定的局限,从而产生不断的重复建设的问题,企业需要制定数字转型改革的战略,来解决复杂业务系统之间的解耦问题,从而降低产品各个模块的依赖,提高复用程度。

 

从管理架构上来看,随着公司业务的不断壮大,每个团队都需要技术,产品,市场等方面的基础支持,各个团队开展业务时需要的支持有很大程度上的重复,但是由于从制度上每个业务部门都是进行独立考核的,导致业务部门往往从自身利益出发,互相之间争夺资源,隔阂不断上升,资源无法高效利用。

 

企业在这样的背景下,需要寻求可以打破这样困境的方法。在2015年,在业务的快速扩张,阿里巴巴同样也面临相同的困境,阿里巴巴借鉴前人的一些方法,提出数据中台的概念,从组织架构上,不再采用具体的业务模块下分设事业部的方式,而是将细分事业部打乱,根据具体业务将其中一些能够为业务线提供基础技术,数据等支撑部门整合为 “共享事业部”,目的在于有效地利用共享资源,为一线业务提供支持。阿里巴巴内部在技术上也做了一定的调整,通过ESB(Enterprise Service Bus)来实现SOA(Service Oriented Architecture)的企业级信息系统基础平台,降低不同模块开发团队间的协同成本,业务相应更快速。打造“大中台,小前台“体系架构,统一为业务线提供支持和帮助。

理解数据中台

数据中台是企业数据产品和数据服务的搭建和实施的方法论,数据中台不仅仅是工具,它还包括系统架构、数据图谱、数据质量、组织架构、规范流程等一切与企业数据价值相关的建设体系。它通过一系列方法和体系来为业务系统提供计算和分析服务。

 

不同行业的经营策略和数据场景千差万别,所涉及的系统和工具也非常多选择,同一行业不同企业对于数据架构的建设思路也不尽相同,这就导致了每一家企业的数据中台不能通过简单复制。但是对于企业在数据中台的体系建设和管理规范流程,都是有规矩可循,可以寻求相似的方法。

 

怎么建设数据中台

数据中台整体的建设方案涉及到数据产品,方法论及数据服务的整体的输出,可以从以下几个方面来描述:

 

1. 数据技术搭建。

数据技术搭建包括数据架构的搭建以及数据模型的搭建。数据架构的搭建包括底层架构,数据存储平台,数据分析工具的搭建等。数据模型搭建包括业务调研,以及模型设计与开发。

1.1 架构搭建

在我们进行数据运算之前,我们需要先搭建适合数据分析的软硬件环境。基础架构的选择,如服务器应该用私有云,公有云还是自建机房。系统需要处理的数据是离线数据还是实时数据,数据存储类型是关系型还是非关系型。如何选择基础软件,数据存储工具,数据处理工具,数据展示工具等。工具的选择有非常多种,没有优劣之分,需要跟据企业自身的环境来选择合适的工具。

 

1.2 数据模型

1.2.1 业务调研

需要由企业策略部门来分析这些数据应该支撑怎样的决策,会从哪些方面来进行分析。再细致到确定哪些业务指标,数据指标的定义,业务场景,以及指标建设的价值。根据指标的业务口径,来确定指标的技术口径 ,在存储层面需要用到什么样的表和字段,过程中使用怎样的计算公式进行计算。对指标的业务定义进行技术层面的转换,经行数据计算的原型设计和评审。

 

1.2.2 模型设计

本文主要参照Inmon 企业信息工厂,Kimball 的维度建模, 阿里的OneData建模理论等来阐述数据模型的设计。采用三层建模的方式进行数据的组织存储,分为ODS(操作数据层),CDM(数据公共层)、ADS(应用数据层)。

 

 

ODS层(操作数据层):

又叫数据登台区,把来源于其他系统的数据,几乎无处理的存放到数据中台,把结构化和非结构化数据抽取和存储到数据ODS层,把有必要转换的非结构化数据转换为结构化数据,对数据做一些必要的清洗和历史数据沉淀。

 

CDM层(数据公共层)

又细分为DIM层(公共维度层),DWD层(明细宽表层)和DWS层(公共汇总层)。

 

DIM层(公共维度层)采用一致性维度规范来进行建设,维度表中维度属性在不同物理表中的字段名称,数据类型,数据内容保持一致。维度可以做适当的合并和拆分。维度中描述业务相关性强的字段合并在一个物理维表中实现,如品牌和品类。无强相关性,但有一定业务联系的属性可以适当考虑放在杂项维度。对于维度属性过多,记录数过大的维度可以适当拆分。

 

DWD层(明细宽表层)

明细宽表层包含事务型事实表,周期快照型事实表,累计快照事实表。事务性事实表主要用于分析行为与追踪事件,代表业务过程中的行为细节。周期快照型事实表用于分析事物的状态和存量事实,以预定时间来采样事实的状态。累计快照事实表是指多个业务过程联合分析的事实的累计情况,如不同事件的时间间隔,支付时长,发货时长,退款时长等;

 

DWS层(公共汇总数据层)

公共汇总层基于明细宽表层的数据进行一定程度的汇总和加工;

 

ADS层(数据应用层)

主要存放为应用而加工的个性化指标和维度,主要来源于CDM层。比如复杂的指标的预处理(比率型指标,排名指标等)。以及基于应用的表处理,行列转换等。

 

基于这些数据处理的过程,数据再以各种形式提供给数据应用层来使用。

 

2. 数据资产管理。

数据资产管理是把数据当成是企业所拥有的资产一样来进行管理。包括元数据管理(其中会有数据图谱,血缘分析,影响分析等)、数据质量管理、数据生命周期管理。

 

2.1 元数据管理

数据中台来源数据多样,多源,多域,通过数据的清洗、分类、拉通、整合、汇总等,数据的使用者需要有一份清晰的数据资产目录,从而了解数据的来龙去脉,对数据的使用有更清晰的认识。支撑数据的抽取,加工,发布,维护,归档等步骤的生命周期过程的管理。元数据管理会把企业的数据由源头,入库,计算,应用的整个处理过程进行梳理和管控。

 

2.2 数据质量管理

数据质量管理指的是在数据加工链路的所有重要环节中需要对数据的质量做评估和控制,根据数据的处理特性来采取相应的数据质量校验。数据质量必须包括几个方面:1)完整性 2)规范性 3)一致性 4) 准确性 5) 一致性 6)及时性。通过对数据质量的统一规范的定义,按照定义的标准,对数据中台处理过程中所涉及到的数据进行检查,从而实现数据质量进行评价和量化。数据质量管理是数据应用的必要步骤,数据应用必须以保证数据是准确,完整的为前提。

 

3. 数据服务。

一切数据加工和计算都是为数据服务而建立的。数据服务包括数据分析服务和数据应用服务,数据应用服务如生意参谋和阿里指数是数据中台中面向商家端提供的数据服务。数据处理的结果通过各种形式的数据呈现,来帮助企业管理层和业务部门进行商业决策,

 

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

数据中台架构体系浅析

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

数据中台架构体系浅析

中台出现的背景从技术上来看,随着业务的发展,很多企业在前期搭建了很多的IT系统,系统间像烟囱一样相互独立。在面对着越来越复杂的业务,越来越多的数据,企业IT在扩展旧系统上出现了一定的局限,从而产生不断的重复建设的问题,企业需要制定数字转型改革的战略,来解决复杂
数据中台架构体系浅析
2017-02-13

数据中台全景架构及模块解析!一文入门中台架构师!

回顾一下,第一篇文章大白话 六问数据中台!你想知道的都在这了!。把数据中台是什么?为什么?有什么价值?说的明明白白。数据中台是企业级能力复用平台,目标是让数据持续用起来,通过数据中台提供的工具、方法和运行机制,把数据变为一种服务能力,让数据更方便地被业务所使用
数据中台全景架构及模块解析!一文入门中台架构师!
2021-01-26

谈谈数据中台技术体系

昀哥 20191109我们做大数据很早,2011年、2012年就开始了,到现在基本形成了一整套完整的数据中台体系。大数据基本为这三件事服务:1.决策依据和经营分析2.运营调度3.外部机构尽职调查和穿刺各个公司各条业务线对数据高度敏感,尤其是打仗(有仗打仗,没仗
谈谈数据中台技术体系
2021-07-31

hadoop大数据平台架构之DKhadoop的示例分析

这篇文章给大家分享的是有关hadoop大数据平台架构之DKhadoop的示例分析的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。目前国内的商业发行版hadoop除了大快DKhadoop以外还有像华为云等。虽然发行方
2023-06-02

深入浅析Java的数据结构中的图

本篇文章为大家展示了深入浅析Java的数据结构中的图,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。1,摘要:从数据的表示方法来说,有二种表示图的方式:一种是邻接矩阵,其实是一个二维数组;一种是邻接表
2023-05-31

Orca:大数据模块化查询优化器体系架构

Orca是一个大数据模块化查询优化器体系架构,它旨在提供高效的查询优化和执行功能,以加速大数据处理。Orca的体系架构主要包括以下模块:1. 查询解析器:负责将用户提交的查询语句解析为内部数据结构,以便后续的处理和优化。2. 查询优化器:通
2023-09-22

Teradata如何应用在数据湖和数据仓库一体化的架构中

在数据湖和数据仓库一体化的架构中,Teradata可以发挥重要作用。Teradata是一种集成式数据分析平台,可以处理大规模的数据,并提供高性能的数据处理和分析能力。在数据湖中,Teradata可以帮助用户将不同来源的数据整合到一个统一的
Teradata如何应用在数据湖和数据仓库一体化的架构中
2024-04-09

阿里云数据库体系架构——高效稳定的数据存储与管理

阿里云数据库体系架构是阿里巴巴集团为满足企业级业务的数据存储与管理需求而构建的一套完整的数据库解决方案。它旨在提供高效、稳定、安全的数据存储与管理服务,满足企业对数据的多样化需求。文章:随着信息化时代的到来,数据已成为企业的核心资产,而数据库是数据存储与管理的核心。阿里云数据库体系架构,就是阿里巴巴集团为满足企业
阿里云数据库体系架构——高效稳定的数据存储与管理
2023-11-16

时序数据库 Apache-IoTDB 源码解析之系统架构(二)

时序数据库 Apache-IoTDB 源码解析之前言(一)这一章主要想聊一聊:物联网行业的基本系统架构,及使用数据库遇到的需求与挑战IoTDB 的功能特点及系统架构车联网因为本人是在做车联网行业,所以对这个行业的信息了解更深入一些,能够拿到一些更具体的数字来说
时序数据库 Apache-IoTDB 源码解析之系统架构(二)
2021-06-08

Nebula 架构剖析系列(二)图数据库的查询引擎设计

摘要上文(存储篇)说到数据库重要的两部分为存储和计算,本篇内容为你解读图数据库 Nebula 在查询引擎 Query Engine 方面的设计实践。在 Nebula 中,Query Engine 是用来处理 Nebula 查询语言语句(nGQL)。本篇文章将带
Nebula 架构剖析系列(二)图数据库的查询引擎设计
2019-02-17

编程热搜

目录