我的编程空间,编程开发者的网络收藏夹
学习永远不晚

数据中台与传统大数据平台有什么区别?终于有人讲明白了

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

数据中台与传统大数据平台有什么区别?终于有人讲明白了

本文转载自微信公众号「大数据DT」,作者彭锋 宋文欣等。转载本文请联系 大数据DT公众号。

我们可以这样理解,传统大数据平台和数据仓库是数据中台的数据来源,建设数据中台是为了更好地服务于业务部门。

图1-1显示了信息化系统、数据仓库、传统大数据平台、数据中台之间的关系,其中的箭头表示数据的主要流向。

▲图1-1 数据中台与传统大数据平台、数据仓库的关系

数据中台与传统大数据平台到底有什么区别?为了叙述方便,我们先给出传统大数据平台的架构(见图1-2)。

▲图1-2 传统大数据平台

  • 大数据基础能力层:Hadoop、Spark、Hive、HBase、Flume、Sqoop、Kafka、 Elasticsearch等。
  • 在大数据组件上搭建的 ETL流水线,包括数据分析、机器学习程序。
  • 数据治理系统。
  • 数据仓库系统。
  • 数据可视化系统。

可以看到,这些是传统大数据平台的核心功能。在很多大数据项目里,只要把这些系统搭起来,每天可以生成业务报表(包括实时大屏),就算大数据平台搭建成功了。

但数据中台应该是大数据平台的一个超集。我们认为,在大数据平台的基础之上,数据中台还应该提供下面的系统功能。

1. 全局的数据应用资产管理

这里所说的数据应用资产管理包括整个生态系统中的数据和应用。传统的数据资产管理绝大部分只包括关系型数据库中的资产(包括Hive),而一个数据中台应该管理所有结构化、非结构化的数据资产,以及使用这些数据资产的应用。

如果传统的数据资产管理提供的是数据目录,那么数据中台提供的应该是扩展的数据及应用目录。要避免重复造轮子,首先要知道系统中有哪些轮子,因此维护一个系统中数据及数据应用的列表是很关键的。

2. 全局的数据治理机制

与传统的数据治理不一样,数据中台必须提供针对全局的数据治理工具和机制。传统数据仓库中的数据建模和数据治理大多针对一个特定部门的业务,部分原因是全局数据建模和治理周期太长,由于存在部门之间的协调问题,往往难度很大。

数据中台提供的数据治理机制必须允许各个业务部门自主迭代,但前提是要有全局一致的标准。阿里提出的OneID强调全局统一的对象ID(例如用户ID),就属于这个机制。

3. 自助的、多租户的数据应用开发及发布

现有的绝大部分大数据平台要求使用者具备一定的编程能力。数据中台强调的是为业务部门赋能,而业务人员需要有一个自助的、可适应不同水平和能力要求的开发平台。这个开发平台要能够保证数据隔离和资源隔离,这样任何一个使用系统的人都不用担心自己会对系统造成损害。

4. 数据应用运维

用户应该可以很方便地将自己开发的数据应用自助发布到生产系统中,而无须经过专门的数据团队。因为我们需要共享这些应用及其产生的数据,所以需要有类似于CI/CD的专门系统来管理应用的代码质量和进行版本控制。

在数据应用运行过程中产生的数据也需要全程监控,以保证数据的完整性、正确性和实时性。

5. 数据应用集成

应该可以随时集成新的数据应用。新的大数据应用、人工智能工具不断涌现,我们的系统应该能够随时支持这些新应用。如果数据中台不能支持这些应用,各个业务部门可能又会打造自己的小集群,造成新的数据孤岛及应用孤岛。

6. 数据即服务,模型即服务

数据分析的结果,不管是统计分析的结果,还是机器学习生成的模型,应该能够很快地使用无代码的方式发布,并供全机构使用。

7. 数据能力共享管理

大部分数据能力应当具有完善的共享管理机制、方便安全的共享机制以及灵活的反馈机制。最后决定数据如何使用的是独立的个人,他们需要一套获取信息的机制,因此在机构内部必须要有这样的共享机制,才能真正让数据用起来。

8. 完善的运营指标

数据中台强调的是可衡量的数据价值,因此,对于数据在系统中的使用方式、被使用的频率、最后产生的效果,必须要有一定的运营指标,才能验证数据的价值和数据中台项目的效率。

综合上面的讨论,除了阿里巴巴提出的OneID、OneModel、OneService之外,我们认为数据中台还应该满足以下两个要求。

1. TotalPlatform

所有中台数据及相关的应用应该在统一平台中统一管理。如果有数据存储在中台管理不到的地方,或者有人在中台未知的情况下使用数据,我们就无法真正实现对数据的全局管理。这要求数据中台能快速支持新的数据格式和数据应用,便于数据工具的共享,而无须建立一个分离的系统。

2. TotalInsight

数据中台应该能够理解并管理系统中数据的流动,提供数据价值的定量衡量,明确各个部门的花费和产出。整个中台的运营是有序可控的,而不是一个黑盒子,用户可以轻松理解全局的数据资产和能力,从系统中快速实现数据变现。

如图1-3所示,数据中台可以说是按照一定的规范要求建设的数据能力平台,在数据仓库、大数据平台、数据服务、数据应用的建设中实现了符合OneID、OneModel、OneService的数据层。

这个数据层,加上在其上建立的业务能力层以及运营这个数据中台需要的TotalPlatform、TotalInsight,形成我们看到的数据中台。

▲图1-3 数据中台的五大要求

关于作者:彭锋,智领云科技联合创始人兼CEO。武汉大学计算机系本科及硕士,美国马里兰大学计算机专业博士,主要研究方向是流式半结构化数据的高性能查询引擎,在数据库顶级会议和期刊SIGMOD、ICDE、TODS上发表多篇开创性论文。2011年加入Twitter,任大数据平台主任工程师、公司架构师委员会大数据负责人,负责公司大数据平台及流水线的建设和管理。

宋文欣,智领云科技联合创始人兼CTO。武汉大学计算机系本科及硕士,美国纽约州立大学石溪分校计算机专业博士。曾先后就职于Ask.com和EA(电子艺界)。2016年回国联合创立智领云科技有限公司,组建智领云技术团队,开发了BDOS大数据平台操作系统。

孙浩峰,智领云科技市场总监。前CSDN内容运营副总编,关注云计算、大数据、人工智能、区块链等技术领域,对云计算、网络技术、网络存储有深刻认识。拥有丰富的媒体从业经验和专业的网络安全技术功底,具有超过15年的企业级IT市场传播、推广、宣传和写作经验,撰写过多篇在业界具有一定影响力的文章。

本文摘编自《云原生数据中台:架构、方法论与实践》,经出版方授权发布。

 

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

数据中台与传统大数据平台有什么区别?终于有人讲明白了

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

数据中台与传统大数据平台有什么区别?终于有人讲明白了

我们可以这样理解,传统大数据平台和数据仓库是数据中台的数据来源,建设数据中台是为了更好地服务于业务部门。

终于有人把数据中台讲明白了

要建设数据中台,我们首先需要明确什么是数据中台,以及数据中台能为企业带来什么价值。

数据中台怎么选型?终于有人讲明白了

数据仓库选型是整个数据中台项目的重中之重,是一切开发和应用的基础。而数据仓库的选型,其实就是Hive数仓和非Hive数仓的较量。Hive数仓以Hive为核心,搭建数据ETL流程,配合Kylin、Presto、HAWQ、Spark、Click

终于有人把业务中台、数据中台、技术中台都讲明白了

阿里巴巴中台战略最早从业务中台和数据中台建设开始,采用了双中台的建设模式,到后来发展出了移动中台、技术中台和研发中台等,这些中台的能力综合在一起就构成了阿里巴巴企业级数字化能力。

两种主流大数据系统架构的区别,终于有人讲明白了

从资源管理角度来看,当前的大数据系统架构主要有两种:一种是MPP数据库架构 ,另一种是Hadoop体系的分层架构。这两种架构各有优势和相应的适用场景。

什么是数据湖?有什么用?终于有人讲明白了……

如果需要给数据湖下一个定义,可以定义为这样:数据湖是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。

终于有人把Hadoop大数据系统架构讲明白了

从资源管理角度来看,当前的大数据系统架构主要有两种:一种是MPP数据库架构 ,另一种是Hadoop体系的分层架构。这两种架构各有优势和相应的适用场景。

终于有人把MPP大数据系统架构讲明白了

从资源管理角度来看,当前的大数据系统架构主要有两种:一种是MPP数据库架构,另一种是Hadoop体系的分层架构。这两种架构各有优势和相应的适用场景。另外,随着光纤网络通信技术的发展,大数据系统架构正在向存储与计算分离的架构和云化架构方发展。

图数据库和图计算的区别,终于有人讲明白了

图数据库(图计算)应对的是当今一个宏观商业世界的大趋势,它凭借对海量、复杂、动态数据的挖掘、分析和关联而获得洞察力。事实上,虽然其本身还无法在短时间内完全替代那些已经被用户充分认识和使用的数据平台,但市场对该技术的需求不断激发着图数据库(图

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录