我的编程空间,编程开发者的网络收藏夹
学习永远不晚

Apache Spark局限性有哪些

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

Apache Spark局限性有哪些

这篇文章给大家介绍Apache Spark局限性有哪些,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。

Apache Spark是行业中流行和广泛使用的大数据工具之一。Apache Spark已成为业界的热门话题,并且如今非常流行。但工业正在转移朝向apache flink。

Apache Spark简介

Apache Spark是为快速计算而设计的开源,闪电般快速的集群计算框架。Apache Spark扩展了MapReduce模型,以有效地将其用于多种计算,包括流处理和交互式查询。Apache Spark的主要功能是内存中的群集计算,可以提高应用程序的处理速度。

Spark计划用于涵盖各种工作负载,例如迭代算法,批处理应用程序,流和交互式查询。除了支持这些工作负载,它还减少了维护不同工具的管理障碍。

Apache Spark框架的核心组件

Apache Spark框架由负责Spark功能的主要五个组件组成。这些组成部分是–

Spark SQL和数据框架–在顶部,Spark SQL允许用户运行SQL和HQL查询以处理结构化和半结构化数据。

SparkStreaming – Spark流传输有助于处理实时流数据,即日志文件。它还包含用于处理数据流的API

MLib机器学习– MLib是具有机器学习功能的Spark库。它包含各种机器学习算法,例如回归,聚类,协作过滤,分类等。

GraphX –支持图形计算的库称为GraphX。它使用户能够执行图操作。它还提供了图形计算算法。

Apache Spark Core API –它是Spark框架的内核,并提供了一个执行Spark应用程序的平台。

下图清楚地显示了Apache Spark的核心组件。

Apache Spark局限性有哪些

Apache Spark的局限性

用户在使用它时必须面对Apache Spark的一些限制。本文完全侧重于Apache Spark的限制以及克服这些限制的方法。让我们详细阅读Apache Spark的以下限制以及克服这些Apache Spark限制的方法。

没有文件管理系统

Apache Spark中没有文件管理系统,需要与其他平台集成。因此,它依赖于Hadoop等其他平台或任何其他基于云的文件管理系统平台。这是Apache Spark的主要限制之一。

不进行实时数据处理

Spark不完全支持实时数据流处理。在Spark流中,实时数据流被分为几批,称为Spark RDD(弹性分布式数据库)。在这些RDD上应用诸如join,map或reduce等操作来处理它们。处理后,结果再次转换为批次。这样,Spark流只是一个微批处理。因此,它不支持完整的实时处理,但是有点接近它。

昂贵

在谈论大数据的经济高效处理时,将数据保存在内存中并不容易。使用Spark时,内存消耗非常高。Spark需要巨大的RAM来处理内存。Spark中的内存消耗非常高,因此用户友好性并不高。运行Spark所需的额外内存成本很高,这使Spark变得昂贵。

小文件发行

当我们将Spark与Hadoop一起使用时,存在文件较小的问题。HDFS附带了数量有限的大文件,但有大量的小文件。如果我们将Spark与HDFS一起使用,则此问题将持续存在。但是使用Spark时,所有数据都以zip文件的形式存储在S3中。现在的问题是所有这些小的zip文件都需要解压缩才能收集数据文件。

仅当一个核心中包含完整文件时,才可以压缩zip文件。仅按顺序刻录核心和解压缩文件需要大量时间。此耗时的长过程也影响数据处理。为了进行有效处理,需要对数据进行大量改组。

延迟

Apache Spark的等待时间较长,这导致较低的吞吐量。与Apache Spark相比,Apache Flink的延迟相对较低,但吞吐量较高,这使其比Apache Spark更好。

较少的算法

在Apache Spark框架中,MLib是包含机器学习算法的Spark库。但是,Spark MLib中只有少数几种算法。因此,较少可用的算法也是Apache Spark的限制之一。

迭代处理

迭代基本上意味着重复使用过渡结果。在Spark中,数据是分批迭代的,然后为了处理数据,每次迭代都被调度并一个接一个地执行。

窗口标准

在Spark流传输中,根据预设的时间间隔将数据分为小批。因此,Apache Spark支持基于时间的窗口条件,但不支持基于记录的窗口条件。

处理背压

背压是指缓冲区太满而无法接收任何数据时,输入/输出开关上的数据累积。缓冲区为空之前,无法传输数据。因此,Apache Spark没有能力处理这种背压,但必须手动完成。

手动优化

使用Spark时,需要手动优化作业以及数据集。要创建分区,用户可以自行指定Spark分区的数量。为此,需要传递要固定的分区数作为并行化方法的参数。为了获得正确的分区和缓存,应该手动控制所有此分区过程。

尽管有这些限制,但Apache Spark仍然是流行的大数据工具之一。但是,现在已经有许多技术取代了Spark。Apache Flink是其中之一。Apache Flink支持实时数据流。因此,Flink流比Apache Spark流更好。

关于Apache Spark局限性有哪些就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

Apache Spark局限性有哪些

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

Apache Spark局限性有哪些

这篇文章给大家介绍Apache Spark局限性有哪些,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。Apache Spark是行业中流行和广泛使用的大数据工具之一。Apache Spark已成为业界的热门话题,并且如今
2023-06-02

SQLite有哪些限制和局限性

SQLite不支持用户并发操作,即同一时间只能有一个用户对数据库进行读写操作,这会导致性能瓶颈。SQLite不支持存储过程、触发器和用户定义函数等高级数据库功能。SQLite不支持远程访问,只能在本地使用。SQLite不支持完整的权限管理系
SQLite有哪些限制和局限性
2024-04-09

JDBCPreparedStatement有哪些优点和局限性

JDBC PreparedStatement的优点:1. 提供了更高的性能:PreparedStatement对象在执行SQL语句时进行了预编译,可以重复使用,从而提高了执行速度。2. 防止SQL注入攻击:使用PreparedStateme
2023-10-10

C++ 函数指针的优势和局限性有哪些?

函数指针的优势包括:灵活性、代码重用、回调函数、事件处理。局限性包括:类型安全性、内存管理、运行时开销。实战案例:定义函数指针类型,创建指向比较函数的函数指针,调用函数指针比较两个数字。C++ 函数指针的优势和局限性函数指针作为一种指针类
C++ 函数指针的优势和局限性有哪些?
2024-04-17

html5全局属性有哪些

html5全局属性有class、id、style、title、lang、tabindex、accesskey、contenteditable、hidden、draggable、spellcheck、translate、dir、draggab
2023-08-18

VUE Nuxt.js 中间件的局限性有哪些?一文了解!

Vue Nuxt.js 中间件是处理客户端和服务器请求及其响应的强大工具,但在使用时也有一些局限性值得注意。
VUE Nuxt.js 中间件的局限性有哪些?一文了解!
2024-02-22

Spark的持续性存储有哪些选项

Spark的持续性存储选项主要有以下几种:1、HDFS:Hadoop分布式文件系统是Spark最常用的持续性存储选项之一,它提供了可靠的分布式存储和计算能力。2、Apache Cassandra:这是一个高可用性、高性能的分布式数据库系
Spark的持续性存储有哪些选项
2024-03-05

2018即将推出的Apache Spark 2.4都有哪些新功能

本文来自于2018年09月19日在 Adobe Systems Inc 举行的Apache Spark Meetup。 即将发布的 Apache SparkmlvlSnHH 2.4 版本是 2.x 系列的第五个版本。 本文对Apache S
2022-06-04

css的布局属性有哪些

css布局属性用于控制网页元素位置和尺寸,以创建页面布局。包括:1) 位置属性:top、right、bottom、left;2) 尺寸属性:width、height、max-width、max-height、min-width、min-he
css的布局属性有哪些
2024-04-25

android相对布局属性有哪些

Android相对布局属性有以下几种:1. layout_alignParentTop:将控件的顶部与父布局的顶部对齐2. layout_alignParentBottom:将控件的底部与父布局的底部对齐3. layout_alignPar
2023-08-16

HTML5弹性布局有哪些优点

这篇文章主要介绍了HTML5弹性布局有哪些优点,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。HTML5弹性布局是用来为盒状模型提供最大的灵活性,优点在于其容易上手,根据fle
2023-06-14

python spark的特点有哪些

Python Spark的特点有以下几个:1. 高效性:Python Spark使用内存计算技术,能够在大数据处理过程中提供高速的计算和数据处理能力。2. 易用性:Python Spark提供了简洁的API,使得开发者可以使用Python编
2023-10-23

Spark SQL的用途有哪些

Spark SQL是一个用于在Spark平台上进行结构化数据处理的模块,它具有以下用途:查询和分析结构化数据:Spark SQL允许用户使用SQL语句和DataFrame API来查询和分析结构化数据,将数据转换为数据框架,进行数据操作和转
Spark SQL的用途有哪些
2024-04-09

多线程的本质是什么?其优势和局限性有哪些?

多线程是一种利用多核处理器同时执行多个任务的编程技术,提升性能、响应能力和模块化。其局限性包括同步问题、调试困难和内存开销。在文件处理程序示例中,通过将任务分配给多线程,可以充分利用多核处理器提高性能,但须注意同步等问题。多线程的本质多线
多线程的本质是什么?其优势和局限性有哪些?
2024-05-07

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录