我的编程空间,编程开发者的网络收藏夹
学习永远不晚

数据湖与数据仓库之间的五大差异

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

数据湖与数据仓库之间的五大差异

我们这些数据和分析从业者当然听过这个词,当我们开始与客户讨论大数据解决方案时,谈话自然转向了对数据湖的讨论。但是,我经常发现客户要么没有听说过这个词,要么没有很好地理解它的含义。

数据仓库

维基百科,将数据仓库定义为:

“...来自一个或多个不同来源的综合数据的中央存储库。他们存储当前和历史数据,并用于创建高级管理报告的趋势报告,如年度和季度比较。“

这是一个非常高层次的定义,它描述了数据仓库的目的,但没有解释如何达到目的。

我会继续添加一个数据仓库有以下属性:

  • 它代表了由主题领域组织的业务的抽象图片。
  • 这是高度转变和结构。
  • 在定义使用数据之前,数据不会被加载到数据仓库中。
  • 它通常遵循诸如Ralph Kimball和Bill Inmon所定义的方法。

数据湖

Pentaho首席技术官詹姆斯·迪克森(James Dixon)通常被称为“数据湖”(data lake)。他描述了一个类似于一瓶水的数据集市(数据仓库的一个子集)...“清理,打包和结构化以便于消费”,而数据湖更像是一个自然状态的水体。数据从流(源系统)流向湖。用户可以进入湖泊进行检查,采样或潜水。

现代数据架构中的数据湖这也是一个相当不精确的定义。我们来添加一个数据湖的一些特定属性:

  • 所有数据都从源系统加载。没有数据被拒绝。
  • 数据以未转换或几乎未转换的状态存储在叶级。
  • 数据被转换,模式被应用来满足分析的需要。

接下来,我们将重点介绍数据湖的五个关键区别以及它们与数据仓库方法的对比。

1. Data Lakes保留所有数据

在开发数据仓库的过程中,花费大量时间分析数据源,了解业务流程和分析数据。其结果是设计用于报告的高度结构化的数据模型。这个过程的很大一部分包括决定要包含哪些数据,而不包括在仓库中。一般来说,如果数据不是用来回答特定的问题或在一个定义的报告中,它可能被排除在仓库之外。这通常是为了简化数据模型,并节省昂贵的磁盘存储上的空间,用于提高数据仓库的性能。

相比之下,数据湖保留所有数据。不仅仅是今天正在使用的数据,还有可能使用的数据,甚至可能永远不会被使用的数据。数据也一直保存下来,以便我们能及时回到任何一点做分析。

这种方法成为可能,因为数据湖的硬件通常与用于数据仓库的硬件大不相同。商品,现成的服务器与便宜的存储相结合,使数据湖扩展到TB级和PB级相当经济。

2.数据湖支持所有数据类型

数据仓库一般由从事务系统中提取的数据组成,并由定量度量和描述它们的属性组成。Web服务器日志,传感器数据,社交网络活动,文本和图像等非传统数据源在很大程度上被忽略。这些数据类型的新用途不断被发现,但是消耗和存储它们可能是昂贵和困难的。

数据湖方法包含这些非传统的数据类型。在数据湖中,我们保留所有数据而不管源和结构。我们保持它的原始形式,只有在我们准备好使用它时,我们才会改变它。这种方法被称为“读取模式”与数据仓库中使用的“写入模式”方法。

3.数据湖支持所有用户

在大多数组织中,80%或更多的用户是“运营”的。他们希望获得他们的报告,查看他们的关键绩效指标,或者每天在电子表格中对同一组数据进行分组。数据仓库通常是这些用户的理想选择,因为它结构合理,易于使用和理解,并且专门用于回答他们的问题。

接下来的10%左右,对数据做更多的分析。他们使用数据仓库作为数据源,但往往回溯到源系统,以获取未包含在仓库中的数据,有时从组织外部获取数据。他们最喜欢的工具是电子表格,他们创建新的报告,通常分布在整个组织。数据仓库是他们的数据源,但是他们经常超出界限

最后,最后几个百分比的用户做了深入的分析。他们可能会根据研究创建全新的数据源。他们混合了许多不同类型的数据,并提出了全新的问题来回答。这些用户可能会使用数据仓库,但往往会忽略它,因为他们通常被控超越其能力。这些用户包括数据科学家,他们可能会使用先进的分析工具和功能,如统计分析和预测建模。

数据湖方法同样支持所有这些用户。数据科学家可以前往湖泊,利用他们所需要的大量不同的数据集,而其他用户则可以使用更为结构化的数据视图来提供数据。

4.数据湖适应变化

关于数据仓库的主要抱怨之一是需要多长时间来改变它们。在开发过程中花费了相当多的时间来获得仓库的结构。一个好的仓库设计可以适应变化,但是由于数据加载过程的复杂性以及为使分析和报告容易进行而做的工作,这些变化将必然消耗一些开发人员资源并花费一些时间。

许多业务问题都迫不及待地让数据仓库团队调整系统来回答问题。自助服务商业智能的概念引发了日益增长的对更快答案的需求。

另一方面,在数据湖中,由于所有数据都是以原始形式存储的,并且总是可以被需要的人访问,所以用户有权超越仓库结构以新颖的方式探索数据并回答问题在他们的步伐。

如果一个探索的结果被证明是有用的,并且有一个重复的愿望,那么可以应用一个更正式的模式,并且可以开发自动化和可重用性来帮助将结果扩展到更广泛的观众。如果确定结果不是有用的,则可以丢弃该结果,并且没有对数据结构进行改变,也没有消耗开发资源。

5.数据湖提供更快的洞察力

这最后一个区别实际上是其他四个的结果。因为数据湖泊包含了所有的数据和数据类型,因为它使用户能够在数据被转换,清理和结构化之前访问数据,使得用户能够比传统的数据仓库方法更快地获得结果。

但是,这种对数据的早期访问是有代价的。通常由数据仓库开发团队完成的工作可能无法完成分析所需的部分或全部数据源。这让驾驶座位的用户可以根据需要探索和使用数据,但上述第一层业务用户可能不希望这样做。他们还只是想要他们的报告和关键绩效指标。

在数据湖中,这些操作报告消费者将利用数据库中的数据的更加结构化的视图,类似于以前在数据仓库中的数据。不同之处在于,这些视图主要是作为元数据存在于湖泊中的数据之上,而不是物理上需要开发者改变的刚性表格。

我应该选择哪种方法?

这是一个困难的问题。如果你已经建立了完善的数据仓库,我当然不主张把所有的工作都放在窗口上,从头开始。但是,像许多其他数据仓库一样,您可能会遇到我所描述的一些问题。如果是这种情况,您可以选择在仓库的旁边实施一个数据湖。仓库可以像以往一样继续经营,您可以用新的数据源开始填充您的湖泊。您还可以将其用于您的仓库数据的归档存储库,以便实际使其保持可用状态,从而为用户提供比以前更多的数据访问权限。随着仓库的老化,您可能会考虑将其移至数据湖,否则您可能会继续提供混合方法。

如果您刚刚开始构建集中式数据平台,我强烈建议您考虑两种方法。

那么技术呢?

我故意没有提到任何具体的技术。数据湖这个词已经成为像Hadoop这样的大数据技术的代名词,而数据仓库仍然与关系数据库平台保持一致。我这篇文章的目标是突出两种数据管理方法的差异,而不是强调一个特定的技术。然而事实是,上述技术方法的一致并不是巧合。关系数据库技术是数据仓库应用的理想选择,因为它们在高速查询结构数据方面表现优异。

另一方面,Hadoop生态系统非常适用于数据湖方法,因为它可以非常容易地适应和扩展非常大的卷,并且可以处理任何数据类型或结构。但是,另外,Hadoop还可以通过将结构化视图应用于原始数据来支持数据仓库场景。正是这种灵活性使Hadoop能够擅长向所有业务用户层提供数据和洞察力。

未来该何去何从?

两个阵营的技术不断发展。

关系数据库软件在软件和硬件方面不断发展和进步,专门用于使数据仓库更快,更具可扩展性和更可靠。

Hadoop生态系统正被看到前所未有的采用,而且它是由社区支持的开源项目的集合,这意味着开发和进步的速度比传统软件快得多。

Hadoop对开源软件和商品硬件的依赖使得从成本和功能的角度来看,如果您正在评估一个新的数据平台,或者正在计划替换或升级一个遗留系统,那么它就非常有吸引力。

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

数据湖与数据仓库之间的五大差异

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

数据湖与数据仓库之间的五大差异

根据Google的说法,对“大数据”的兴趣已经持续了好几年,而且在过去几年里真正的兴起。这篇文章的目的是为了帮助突出数据湖泊和数据仓库之间的差异,帮助您就如何管理数据做出明智的决定。

数据湖与数据仓库的对比

与数据仓库不同,数据湖是一种存储大量原始数据的系统,这些数据可以是结构化的、半结构化的或非结构化的。

数据湖与数据仓库的区别

即使数据仓库和数据湖在大数据应用上有着许多共同的目标,但在处理方法、安全性、敏捷性、成本、架构、集成等方面存在一定的差异。

数据中台、数据仓库、数据治理与主数据的定位与差异

在数字化时代,大数据已经成为企业运营和决策的重要资产。为了更好地管理和利用这些数据,数据中台、数据仓库、数据治理和主数据管理等概念应运而生。这些概念听起来可能有些抽象,但实际上它们与我们的日常生活息息相关。

数据湖 VS 数据仓库之争?阿里提出大数据架构新概念:湖仓一体

数据仓库和数据湖的区别到底是什么,是技术路线之争?是数据管理方式之争?二者是水火不容还是其实可以和谐共存,甚至互为补充?

数据挖掘和数据仓库之间的区别

当人们听到“数据挖掘”这个词时,“数据仓库”这个词怎么样?找出数据挖掘和数据仓库之间的确切区别。

数据挖掘和数据仓库之间的区别介绍

数据挖掘和数据仓库是两个不同的概念,分别用于不同的数据处理和分析目的。下面是它们之间的区别介绍:1. 定义:- 数据挖掘是指从大量的数据中发现隐藏的模式、关联、趋势和其他有价值的信息,并将其应用于实际问题的过程。数据挖掘主要关注的是发现新的
2023-09-21

浅析大数据安全与传统数据保护的差异

传统的数据通常是独立生成分散使用,每块数据的规模和价值都有限,不容易成为黑客攻击的优选目标;数据大量集中则彻底改变这种局面,使其更容易成为被攻击的目标。

PHP中不同数据库管理系统之间的连接差异

不同 dbms 在 php 中的连接差异:mysql:使用 mysqli 扩展,需要主机名、用户名、密码。postgresql:使用 pdo 扩展,使用 pgsql 子句指定主机名、端口和数据库名称。mongodb:使用 mongodb 客
PHP中不同数据库管理系统之间的连接差异
2024-05-21

Oracle数据库ODBC连接与数据备份的增量与差异备份

ODBC连接是一种用于连接不同数据库管理系统(如Oracle)的标准接口,允许应用程序访问和操作数据库中的数据。通过ODBC连接,可以在应用程序中执行SQL查询和命令,从而实现数据的读取、写入和更新操作。数据备份是指将数据库中的数据文件复
Oracle数据库ODBC连接与数据备份的增量与差异备份
2024-07-16

解读数据合规性和数据隐私之间的主要差异

在部署保存客户或用户数据的任何应用程序时,数据合规性和数据隐私都是需要考虑的重要事情。然而,数据管理的这两个领域有时会被误解。本文将阐明数据合规性和数据隐私之间的区别。

聚焦数据,探索分布式数据库与湖仓一体的前沿应用

近期,51CTO举办了两场技术直播活动,围绕数据库前沿趋势和实践应用,分别以“分布式数据库应用与挑战”和“湖仓一体的技术实践”为主题,邀请了51CTO学堂金牌讲师以及数据库方向的企业技术专家进行分享,帮助用户更好地了解并掌握数据库领域的前沿

数据管理之星:数据库与数据仓库设计奥秘,点燃数据洞察的盛宴

数据库和数据仓库是数据管理的两个核心概念,了解它们的设计奥秘对于点燃数据洞察的盛宴至关重要。本文将深入探讨数据库和数据仓库的设计原理,并提供一些实用的技巧和演示代码,帮助您构建高效可靠的数据管理系统。
数据管理之星:数据库与数据仓库设计奥秘,点燃数据洞察的盛宴
2024-02-09

从适配Oceanbase看分布式数据库运维与传统数据库的差异

经过这一年多与Oceanbase的深度接触,我们找到了一种对复杂的多租户分布式数据库的运维监控与故障定位的方法,Oceanbase专版的发布后,我们会邀请客户一起来进行测试,并通过对用户现场数据的分析,丰富故障模型,完善智能基线,并积累更多

Sybase与Oracle数据库管理系统的核心差异

Sybase与Oracle数据库管理系统的核心差异,需要具体代码示例数据库管理系统在现代信息技术领域中扮演着至关重要的角色,Sybase和Oracle作为两大知名的关系型数据库管理系统,在数据库领域中占据着重要地位。虽然它们都属于关系型数
Sybase与Oracle数据库管理系统的核心差异
2024-03-08

数据技术的进化之旅:从数据仓库到数据飞轮的变革与实践

数据技术的演进为企业提供了强大的数据管理和分析工具,帮助企业在竞争激烈的市场中保持优势。

大数据环境下互联网行业数据仓库/数据平台的架构之漫谈

导读:整体架构数据采集数据存储与分析数据共享数据应用实时计算任务调度与监控元数据管理总结一直想整理一下这块内容,既然是漫谈,就想起什么说什么吧。我一直是在互联网行业,就以互联网行业来说。先大概列一下互联网行业数据仓库、数据平台的用途:整合公
2023-06-05

数据库容灾与数据安全:两者之间的关系

数据库容灾和数据安全都是确保数据可用性和完整性的重要措施。本文将探讨两者之间的关系,并提供一些演示代码来帮助读者理解。
数据库容灾与数据安全:两者之间的关系
2024-02-14

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录