谈谈数据中台技术体系
昀哥 20191109
我们做大数据很早,2011年、2012年就开始了,到现在基本形成了一整套完整的数据中台体系。大数据基本为这三件事服务:
1.决策依据和经营分析
2.运营调度
3.外部机构尽职调查和穿刺
各个公司各条业务线对数据高度敏感,尤其是打仗(有仗打仗,没仗造仗)的时候基本上是实时调度,加之公司多,数据来源多,机房多,交易量大(每日1000+万),实时性要求高,所以需要一套行之有效的数据中台来支撑。
首先,我们把大数据技术领域划分为六块,如下图所示。
-
元数据管理:分为技术元数据和业务元数据。技术元数据描述数据仓库技术细节。业务元数据从商业和业务的角度描述数据仓库中的数据,使业务人员更好地、全面地理解数据仓库中分析出来的数据。其中最经典的场景就是血缘(动态)分析。
-
协作调度:不管是离线计算,还是实时计算,都需要一套调度和管理系统来帮助数据仓库工程师平滑地完成测试环境、生产环境的计算任务的打包、提交、测试、核验数据和发布。
-
自助分析:也可以叫即席查询。具有一定经验的运营人员或数据分析师可以利用自助BI系统完成数据提取、数据分析和展示,所见即所得。
-
数据可视化:指的是预先通过可视化系统配置好的各种监控大屏和经营分析报表。
-
运维监控告警:对集群组件安装和升级,对数据迁移,对集群运转情况,需要有一个能让运维人员和数据仓库工程师解脱出来的解决方案。
-
数据资产管理(含数据质量):在元数据管理基础之上,第一层需要数据质量保障,即有一套明确的保障机制,对生产出来的数据做校验,确保数据无误,否则就要找到数据失真的原因并告警。第二层是梳理盘点数据资产,准确计量数据资产,准确掌握数据资产的开放情况,形成治理闭环。
其次,我们的数据中台在最近两年发展得更有体系了,这与公司裂变、业务规模激增引发的,当然也跟我们高屋建瓴、高举高打分不开。
如果分层来划分的话,可以把工作成果分为业务交付和过程管控两啪,如下图所示。
简单做一个系统概述和技术栈说明:
业务交付:
-自助报表:自窝窝以来我们就有一套向导式的报表自助配置系统,绝大多数经营分析报表(一般是T+1数据汇总和明细)都是这么配置出来的,有汇总有明细有图有表有筛选有排序有导出。
-数屏:一种高逼格数据应用,它的目标是通过图形化界面快速搭建可视化监控大屏,数屏可以提供丰富的可视化数据组件,满足业务监控、会议展览、投资咨询等多种业务的展示需求,尤其要满足PC浏览器或者手机浏览器访问下的自适应布局。
-数据开放实验室:一种即席查询和自助分析系统,它的目标是将我们收集到的各种数据,授权下游企业使用,通过即席查询定义API,通过API获取数据,并进一步做可视化分析,制作报表。它的用户既有企业内部用户,也有企业外部用户。
-天演:不懂SQL或是数据库结构的非技术人员,让他们能自由地上传临时数据、关联授权数据、探索数据,回答自己的问题,建立自己的个人数据工作台,有图有表能下钻,从宏观到微观。也因此数据查询交互速度要足够快,选Druid,杠杠的。
过程管控:
-魔盒:既然业务开发有研发协作平台、数据库自动化运维平台和运维自动化平台,那么大数据开发也肯定需要有一个协作平台。所谓协作平台,指的是围绕着四个核心概念(资源,数据,流程,操作)构建一个体系(资源能看见,流程能流转,数据能共享,操作有记录),流程驱动数据和资源,操作可视化和可追踪,形成闭环。底层实际是Azkaban。
-移山:异构数据源之间的数据迁移自动化平台,它旨在解决第三方数据接入、实时数据(单向/双向)同步、大数据集群间的数据迁移等问题。本质上是Canal和Kafka。
-磐石:基于Ambari的运维监控告警系统。
-能量块:元数据管理系统。
数据中台在整个大中台的位置如下图所示。
上面这套大中台体系,我们已经运转自如,大势已成。
-EOF-
欢迎关注公众号:老兵笔记
免责声明:
① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。
② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341