我的编程空间,编程开发者的网络收藏夹
学习永远不晚

大数据引擎分代

短信预约 信息系统项目管理师 报名、考试、查分时间动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

大数据引擎分代

大数据引擎分代

大致可以将大数据的计算引擎分成了 4 代。

1、第一代的计算引擎,无疑就是Hadoop承载的MapReduce。它将每个JobApp都被设计为两个阶段,分别为Map和Reduce。对于上层应用来说,就不得不想方设法去拆分算法,甚至于不得不在
上层应用实现多个App的串联,才能完成一个完整的算法,例如迭代计算,不够灵活,中间计算结果涉及到磁盘shuffle,影响效率。
Hadoop设计理念来自Google的三篇论文的启发催生了下列组件
HDFS:分布式存储【在役】
MapReduce:分布式结算【退役】
Hbase:分布式查询【在役】

2、由于第一代的弊端,催生了支持 DAG 框架的产生,实现了DAG定义与算子的解耦。因此,支持用户在算子外部自定义 DAG 的框架被划分为第二代计算引擎。如 Tez 以及更上层的 Oozie。这里我们不去细究各种 DAG 实现之间的区别,不过对于当时的 Tez 和 Oozie 来说,大多还是批处理的任务。

3、接下来就是以 Spark 为代表的第三代的计算引擎。第三代计算引擎的特点主要是一个App内部支持多个Job,每个Job可以代表一套完整的数据处理流程(用Job完成一个完整流程的隔离),并
实现了Job内嵌DAG,以及强调的实时计算。在这里,很多人也会认为第三代计算引擎也能够很好的运行批处理的 Job。
Spark中几个概念的作用范围:App > Job > Stage > Operator > Task,从左至右都是1对多的关系。

4、随着第三代计算引擎的出现,促进了上层应用快速发展,例如各种迭代计算的性能以及对流计算和SQL等的支持。Flink的诞生就被归在了第四代。这应该主要表现在Flink对实时流计算的支持,以及更进一步的实时性上面。当然Flink也可以支持Batch的任务,以及DAG的运算。当然与Spark相比Flink还做了其他优化设计,比如更好的JVM内存管理(Flink并没有将全部内存交给App管理,避免了在Spark中较频发的OOM)。

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

大数据引擎分代

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

大数据引擎分代

大致可以将大数据的计算引擎分成了 4 代。1、第一代的计算引擎,无疑就是Hadoop承载的MapReduce。它将每个JobApp都被设计为两个阶段,分别为Map和Reduce。对于上层应用来说,就不得不想方设法去拆分算法,甚至于不得不在上层应用实现多个App
大数据引擎分代
2016-03-28

【赵强老师】大数据分析引擎:Presto

一、什么是Presto?背景知识:Hive的缺点和Presto的背景Hive使用MapReduce作为底层计算框架,是专为批处理设计的。但随着数据越来越多,使用Hive进行一个简单的数据查询可能要花费几分到几小时,显然不能满足交互式查询的需求。Presto是一
【赵强老师】大数据分析引擎:Presto
2018-03-27

大数据Hadoop之——计算引擎Spark

目录一、概述1)Spark特点2)Spark适用场景二、Spark核心组件三、Spark专业术语详解1)Application:Spark应用程序2)Driver:驱动程序3)Cluster Manager:资源管理器4)Executor:执行器5)Worke
大数据Hadoop之——计算引擎Spark
2016-06-11

【赵强老师】大数据工作流引擎Oozie

一、什么是工作流?工作流(WorkFlow)就是工作流程的计算模型,即将工作流程中的工作如何前后组织在一起的逻辑和规则在计算机中以恰当的模型进行表示并对其实施计算。工作流要解决的主要问题是:为实现某个业务目标,在多个参与者之间,利用计算机,按某种预定规则自动传
【赵强老师】大数据工作流引擎Oozie
2019-09-02

Apache Flink 为什么能够成为新一代大数据计算引擎?

众所周知,Apache Flink(以下简称 Flink)最早诞生于欧洲,2014 年由其创始团队捐赠给 Apache 基金会。如同其他诞生之初的项目,它新鲜,它开源,它适应了快速转的世界中更重视的速度与灵活性。 大数据时代对人类的数据驾驭能力提出了新的挑战,
Apache Flink 为什么能够成为新一代大数据计算引擎?
2020-08-14

大数据Atlas支持哪些数据存储和计算引擎

大数据平台支持的数据和计算引擎大数据Atlas支持广泛的数据存储引擎,包括关系型数据库、非关系型数据库、数据仓库和文件系统。此外,它还支持多种计算引擎,如Hadoop、Spark、Presto和Flink。功能和优势:数据探索和发现数据治理和安全数据集成和处理数据分析和机器学习数据katalog可扩展性和灵活性
大数据Atlas支持哪些数据存储和计算引擎
2024-04-09

大数据Atlas支持哪些数据存储和计算引擎

大数据Atlas支持的数据存储和计算引擎包括但不限于:Hadoop/HDFS:Apache Hadoop是一种开源的分布式存储和计算框架,Atlas可以与Hadoop集成,支持使用HDFS进行数据存储和计算。Spark:Apache Spa
大数据Atlas支持哪些数据存储和计算引擎
2024-03-07

Python语言的大数据搜索引擎有哪些

本篇内容主要讲解“Python语言的大数据搜索引擎有哪些”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Python语言的大数据搜索引擎有哪些”吧!布隆过滤器 (Bloom Filter)***步
2023-06-16

MySQL数据库结构和引擎比对分析

这篇文章主要介绍“MySQL数据库结构和引擎比对分析”,在日常操作中,相信很多人在MySQL数据库结构和引擎比对分析问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”MySQL数据库结构和引擎比对分析”的疑惑有所
2023-06-02

浅谈用Python实现一个大数据搜索引擎

搜索是大数据领域里常见的需求。Splunk和ELK分别是该领域在非开源和开源领域里的领导者。本文利用很少的Python代码实现了一个基本的数据搜索功能,试图让大家理解大数据搜索的基本原理。 布隆过滤器 (Bloom Filter) 第一步我
2022-06-04

mysql引擎大量更改的示例分析

小编给大家分享一下mysql引擎大量更改的示例分析,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!1、对mysql命令语句修改ALTER TABLE 表名 ENGI
2023-06-20

MySQL和Oracle:学习大数据技术必备的两个数据库引擎。

MySQL和Oracle:学习大数据技术必备的两个数据库引擎随着互联网和信息技术的发展,大数据已经成为当下热门话题。而要处理和管理海量数据,数据库引擎起着至关重要的作用。在学习大数据技术的过程中,熟练掌握数据库引擎是必不可少的一环。而MyS
2023-10-22

编程热搜

目录