我的编程空间,编程开发者的网络收藏夹
学习永远不晚

01 | 数据中台笔记-中台的来源

短信预约 信息系统项目管理师 报名、考试、查分时间动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

01 | 数据中台笔记-中台的来源

01 | 数据中台笔记-中台的来源

一、数仓的前世今生

  1. 起源

​ 商业智能(Business Intelligence)诞生在上个世纪 90 年代,它是将企业已有的数据转化为知识,帮助企业做出经营分析决策。这些都离不开大量的数据分析。而数据分析需要聚合多个业务系统的数据,比如需要集成交易系统的数据,需要集成仓储系统的数据等等,同时需要保存历史数据,进行大数据量的范围查询。传统数据库面向单一业务系统,主要实现的是面向事务的增删改查,已经不能满足数据分析的场景,这促使数据仓库概念的出现。

建模方法

​ 比尔·恩门 和金博尔(Kimball) 共同开创的数仓建模的设计方法,这个方法对于后来基于数据湖的现代数据仓库的设计有重要的意义,所以你有必要了解。

  • 恩门提出的建模方法自顶向下(这里的顶是指数据的来源,在传统数据仓库中,就是各个业务数据库),基于业务中各个实体以及实体之间的关系,构建数据仓库。

  • 金博尔建模与恩门正好相反,是一种自底向上的模型设计方法,从数据分析的需求出发,拆分维度和事实。(工作开发普遍在用,推荐!!!)

二、Hadoop到数据湖

  1. Hadoop出现

    2003 年开始,互联网巨头谷歌先后发表了 3 篇论文:《The Google File System》《MapReduce:Simplified Data Processing on Large Clusters》《Bigtable:A Distributed Storage System for Structed Data》,这三篇论文奠定了现代大数据的技术基础。

    ​ 但 2005 年 Hadoop 出现的时候,大数据技术才开始普及。你可以把 Hadoop 认为是前面三篇论文的一个开源实现,我认为 Hadoop 相比传统数据仓库主要有两个优势:

    • 完全分布式,易于扩展,可以使用价格低廉的机器堆出一个计算、存储能力很强的集群,满足海量数据的处理要求;

    • 弱化数据格式,数据被集成到 Hadoop 之后,可以不保留任何数据格式,数据模型与数据存储分离,数据在被使用的时候,可以按照不同的模型读取,满足异构数据灵活分析的需求。

  2. 数据湖提出

    数据湖概念的提出,我认为是 Hadoop 从开源技术走向商业化成熟的标志。企业可以基于 Hadoop 构建数据湖,将数据作为一种企业核心资产。

    数据湖拉开了 Hadoop 商用化的大幕,但是一个商用的 Hadoop 包含 20 多种计算引擎, 数据研发涉及流程非常多,技术门槛限制了 Hadoop 的商用化进程。那么如何让数据的加工像工厂一样,直接在设备流水线上完成呢?数据工厂时代:大数据平台兴起

三、数据工厂时代:大数据平台兴起

​ 对于一个数据开发,在完成一项需求时,常见的一个流程是首先要把数据导入到大数据平台中,然后按照需求进行数据开发。开发完成以后要进行数据验证比对,确认是否符合预期。接下来是把数据发布上线,提交调度。最后是日常的任务运维,确保任务每日能够正常产出数据。

​ 提出大数据平台的概念,就是为了提高数据研发的效率,降低数据研发的门槛,让数据能够在一个设备流水线上快速地完成加工。

大数据平台是面向数据研发场景的,覆盖数据研发的完整链路的数据工作台

Hive、Spark、Flink、Impala 提供了大数据计算引擎:

  • Hive、Spark 主要解决离线数据清洗、加工的场景,目前,Spark 用得越来越多,性能要比 Hive 高不少;
  • Flink 主要是解决实时计算的场景;
  • Impala 主要是解决交互式查询的场景。

四、数据中台崛起

​ 时间到了 2016 年前后,互联网高速发展,背后对数据的需求越来越多,数据的应用场景也越来越多,有大量的数据产品进入到了我们运营的日常工作,成为运营工作中不可或缺的一部分。在电商业务中,有供应链系统,供应链系统会根据各个商品的毛利、库存、销售数据以及商品的舆情,产生商品的补货决策,然后推送给采购系统。

大规模数据的应用,也逐渐暴露出现一些问题。

业务发展前期,为了快速实现业务的需求,烟囱式的开发导致企业不同业务线,甚至相同业务线的不同应用之间,数据都是割裂的。两个数据应用的相同指标,展示的结果不一致,导致运营对数据的信任度下降。如果你是运营,当你想看一下商品的销售额,发现两个报表上,都叫销售额的指标出现了两个值,你的感受如何? 你第一反应肯定是数据算错了,你不敢继续使用这个数据了。

  • 如果你是运营,当你想要一个数据的时候,开发告诉你至少需要一周,你肯定想是不是太慢了,能不能再快一点儿?

  • 如果你是数据开发,当面对大量的需求的时候,你肯定是在抱怨,需求太多,人太少,活干不完。

  • 如果你是一个企业的老板,当你看到每个月的账单成指数级增长的时候,你肯定觉得这也太贵了,能不能再省一点,要不吃不消了。

    这些问题的根源在于,数据无法共享。2016 年,阿里巴巴率先提出了“数据中台”的口号。数据中台的核心,是避免数据的重复计算,通过数据服务化,提高数据的共享能力,赋能数据应用

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

01 | 数据中台笔记-中台的来源

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

01 | 数据中台笔记-中台的来源

一、数仓的前世今生起源​商业智能(Business Intelligence)诞生在上个世纪 90 年代,它是将企业已有的数据转化为知识,帮助企业做出经营分析决策。这些都离不开大量的数据分析。而数据分析需要聚合多个业务系统的数据,比如需要集成交易系统的数据,需
01 | 数据中台笔记-中台的来源
2019-04-16

数据飞轮:唤醒数据中台的动力源泉!

数据飞轮不仅是一个理论概念,更是企业实现数据驱动的实践路径。通过建设良好的数据基础设施、推动数据共享和应用先进的数据分析技术,企业能够唤醒沉睡的数据,使数据中台焕发活力。

唤醒数据中台的飞轮:数据驱动的动力源泉

数据飞轮不仅能唤醒数据中台,更能通过持续的数据迭代与优化,推动企业逐步形成一个自我增强的数据驱动生态系统。

数据飞轮与数据中台:未来数据架构的进化论

数据中台为数据飞轮的构建提供了坚实的基础,而数据飞轮则通过有效利用每一次数据的迭代,不断提升数据中台的价值,两者互为因果、相辅相成。

大数据飞轮:电商中台的新活力源泉

数据飞轮的理念和技术实现正在向我们展示,如何通过更加智能和自动化的方式,让数据中台焕发新的生命力,进一步开启数据驱动业务创新的新篇章。

数据飞轮与游戏行业:塑造未来的数据中台

在数据驱动的商业世界中,游戏产业尤其依赖数据的深刻洞察能力,以增强用户体验并推动增长。从广告监测到用户流失的挽回,业务增长归因到增长营销,每个环节都涉及复杂的数据操作和洞见提炼。

数据飞轮与数据中台:驱动文娱行业的未来

在当今以数据驱动为核心的商业环境中,数据中台和数据飞轮概念成为行业热议的焦点。这两者似乎在不断推动着企业的信息化和智能化升级,特别是在文娱行业,其中数据的作用尤为凸显。

数据飞轮时代的到来:解构数据中台的局限性

数据中台的概念并未过时,但其单一的功能已经难以满足企业日益复杂的数据需求。数据飞轮作为一种更加先进和动态的数据管理及运用模式,更加符合当下及未来的业务发展需求。

数据驱动唤醒数据中台的数据

总结多年的开发经验,唤醒数据中台并实现数据驱动的核心在于如何将海量数据转化为能够支持业务决策的资产。

演化日记:从数据仓库到数据中台与文娱业的数据飞轮

本文将探讨数据技术如何从简单的数据仓库演变为强大的数据飞轮,并具体说明这一进程如何在文娱行业具体应用。

让数据中台进入数智化时代|明略科技的“中台”论道

12月4日,明略科技举办了“让数据中台进入数智化时代”的媒体交流会,腾讯云大数据产品中心总经理徐晓敏、Forrester 首席分析师穆飞受邀出席,与明略科技创始合伙人兼总裁姜平、数据中台负责人刘国栋、高级副总裁Elva Liu,和在场的媒体

谈一谈数据中台的原罪

数据中台的确有很大的价值,但也隐含着不少风险,我们以前谈其优点多了,缺点谈少了,这不是实事求是的作风,更可怕的是,也许我们自己并不知道这些风险的存在。

数据中台“热”下的“冷思考”

这股数据中台热,让很多科技企业都看到了这个「风口」,相继开启了数据中台的市场争夺战,都希望成为那头站在风口插上翅膀的「猪」。在这股数据中台热之风之下,很多企业也都跃跃欲试,希望借助数据中台驱动企业管理和业务创新,谱写出一个造富神话。

数据飞轮:唤醒数据中台的力量

在这个数据驱动的时代,数据中台的概念已成为企业转型升级的关键所在。数据不再是孤岛,而是流动的,能够在组织间自由流通、相互作用的资产。

一个具体场景剖析业务中台和数据中台的关系

数据中台和业务中台的区别,希望能够深入浅出,很容易理解的解释什么情况下需要业务中台,什么情况下需要数据中台以及双中台的关系。

宜信卢山巍:数据中台的“自动化数据治理”时代已来

中台,我理解是能力的下沉,数据处理能力下沉为加工平台,数据处理结果下沉为数据资产。那么数据治理能否下沉?可以下沉出什么东西?——宜信数据中台负责人 卢山巍本文来源:宜信数据中台负责人卢山巍在亿欧产业互联网频道“数字中台创新”沙龙的分享实录原
2023-06-02

数据飞轮与数据中台的关系探索

通过探讨数据中台与数据飞轮的区别和联系,我们可以发现,数据中台提供了数据的基础架构与服务,是企业构建强大数据处理能力的前提。

数据飞轮:唤醒数据中台的新动力

在数字经济的浪潮中,数据不仅是资产,更是企业竞争力的核心。数据中台,作为集成和处理大规模数据的枢纽,在帮助组织解锁数据潜力方面发挥着至关重要的作用。

编程热搜

目录