我的编程空间,编程开发者的网络收藏夹
学习永远不晚

大数据之Spark基础环境

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

大数据之Spark基础环境

前言

本篇文章开始介绍Spark基础知识,包括Spark诞生的背景,应用环境以及入门案例等,还是Spark学习之旅前,得先安装Spark环境才行,具体安装步骤可以看Spark环境搭建,让我们接着往下聊。

一、Spark概述

(一)Spark是什么

Spark是Apache顶级的开源项目,主要用于处理大规模数据的分析引擎,该引擎的核心数据结构是RDD弹性分布式数据集,这是一种分布式内存抽象,程序员可以使用RDD在大规模集群中做内存运算,并具有一定的容错方式;

Spark保留了MapReduce的分布式并行计算的优点,还改进了其较为明显的缺陷,中间数据存储在内存中,大大提高了运行速度,同时还提供了丰富的API,提高了开发速度。

大数据之Spark基础环境

(二)Spark的四大特点

Spark底层使用Scala语言,是一种面向对象、函数式编程语言,能够像操作本地集合一样轻松的操作分布式数据集,Spark具有运行速度快、易用性好、通用性强和随处运行等特点;

(1)速度快,Spark支持内存计算,并且通过DAG有向无环图执行引擎支持无环数据流,相对MapReduce来说,Spark处理数据时,可以将中间处理结果数据存储到内存中,Spark每个任务以线程方式执行,并不是像MapReduce以进程方式执行,线程的启动和销毁相对于进程来说比较快;
(2)易于使用,Spark 支持Java、Scala、python 、R和SQL语言等多种语言;
(3)通用型强,Spark 还提供包括Spark SQL、Spark Streaming、MLib 及GraphX在内的多个工具库,可以在同一个应用中无缝地使用这些工具库;
(4)运行方式多,Spark 支持多种运行方式,包括在 Hadoop 和 Mesos 上,也支持 Standalone的独立运行模式,同时也可以运行在云Kubernetes上,获取数据的方式也很多,支持从HDFS、HBase、Cassandra 及 Kafka 等多种途径获取数据。

(三)Spark的风雨十年

Spark的发展主要经历过几大阶段:

(1)2009年Spark起源于加州伯克利分校;
(2)2013年被捐赠给Apache;
(3)2014年称为Apache顶级项目;
(4)2016年Spark2.0发布
(5)2019年Spark3.0发布

大数据之Spark基础环境

(四)Spark框架模块

大数据之Spark基础环境

整个Spark 框架模块包含:Spark Core、 Spark SQL、 Spark Streaming、 Spark GraphX和 Spark MLlib,大部分模块的能力都在建立在其核心引擎之上;

(1)Spark Core,该模块的数据结构是RDD,实现了Spark的基本功能,包括RDD、任务调度、内存管理、错误恢复以及与存储系统交互等;
(2)Spark SQL,该模块的数据结构主要是DataFrame,是Spark用来操作结构化数据的程序包,通过该模块,可以直接使用SQL操作数据;
(3)Spark Streaming,其主要的数据结构是DStream离散化流,是Spark对实时数据进行流式计算的组件;
(4)Spark GraphX,该模块的数据结构为RDD或者DataFrame,是Spark中用于图计算的组件,性能良好,拥有丰富的功能和运算符,能在海量数据上自如地运行复杂的图算法;
(5)Spark MLlib,该模块的数据结构也是RDD或者DataFrame,主要用于机器学习,提供了常见的机器学习功能的程序库,包括分类、回归、聚类等,同时也支持模型评估和数据导入等功能。

(五)Spark通信框架

整个Spark 框架通信模块为Netty,Spark 1.6版本引入了Netty,在Spark 2.0之后,完全使用Netty,并移除了akka。

总结

Spark保留了MapReduce的分布式计算,基于内存计算,提高的数据的计算能力;
其主要模块有Spark Core、 Spark SQL、 Spark Streaming、 Spark GraphX和 Spark MLlib,不仅可以通过SQL的方式操作数据,还可以对实时数据进行流式计算,同时也支持机器学习;
Spark的特点主要是计算速度快,支持多种编程语言,并且提供了众多友好的API,使得Spark的学习成本大大降低了。

以上就是大数据之Spark基础环境的详细内容,更多关于Spark基础环境的资料请关注我们其它相关文章!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

大数据之Spark基础环境

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

大数据之Spark基础环境

目录前言一、Spark概述(一)Spark是什么(二)Spark的四大特点(三)Spark的风雨十年(四)Spark框架模块(五)Spark通信框架总结前言本篇文章开始介绍Spark基础知识,包括Spark诞生的背景,应用环境以及入门案例
2023-04-06

大数据Hadoop之——Spark SQL+Spark Streaming

目录一、Spark SQL概述二、SparkSQL版本1)SparkSQL的演变之路2)shark与SparkSQL对比3)SparkSession三、RDD、DataFrames和DataSet1)三者关联关系1)RDD1、核心概念2、RDD简单操作3、RD
大数据Hadoop之——Spark SQL+Spark Streaming
2019-06-08

python之基础篇(十)——执行环境与

防伪码:忘情公子著解释器环境与选项  python解释器启动:python [options] [-c cmd | filename | - ] [args]选项描述-3启用将从python3中删除或更改某些功能的警告-B阻止在导入时创建.
2023-01-31

大数据Hadoop之——计算引擎Spark

目录一、概述1)Spark特点2)Spark适用场景二、Spark核心组件三、Spark专业术语详解1)Application:Spark应用程序2)Driver:驱动程序3)Cluster Manager:资源管理器4)Executor:执行器5)Worke
大数据Hadoop之——计算引擎Spark
2016-06-11

大数据完全分布式配置(一)——基础环境配置、java、zookeeper、hadoop、jobHisoryServer

大数据集群配置系列一,完全分布式搭建hadoop,zookeeper。简单介绍jobhistory的配置流程。 准备工作最小化安装master后,确定可以连接Xshell后。克隆出slave1、slave2,修改好网络配置并且确保三台虚拟机都在一个网关里
大数据完全分布式配置(一)——基础环境配置、java、zookeeper、hadoop、jobHisoryServer
2018-03-02

大数据Hadoop之——Spark集群部署(Standalone)

目录一、Spark概述二、Spark的运行模式1)Standalone(本章讲解)2)Mesos3)YARN(推荐)4)K8S(新模式)三、Standalone 模式运行机制1)Standalone Client 模式2)Standalone Cluster
大数据Hadoop之——Spark集群部署(Standalone)
2020-01-26

大数据存储技术基础

一、绪论1.存储的本质信息跨越空间的传递——通讯 信息跨越时间的传递——存储通讯:利用具有跨越空间特性的物理现象 ---声音、光、电存储:利用具有时间稳态的物理现象 ---物理稳态、磁稳态、半导体稳态什么是存储?存储:·它是数据临时或长期驻留的物理媒介;·它是
大数据存储技术基础
2018-01-24

Python基础之pandas数据合并

一、concat concat函数是在pandas底下的方法,可以将数据根据不同的轴作简单的融合pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False
2022-06-02

大数据Hadoop之——Spark on Hive 和 Hive on Spark的区别与实现

目录一、Spark on Hive 和 Hive on Spark的区别1)Spark on Hive2)Hive on Spark(本章实现)二、Hive on Spark实现1)先下载hive源码包查看spark版本2)下载spark3)解压编译4)解压5
大数据Hadoop之——Spark on Hive 和 Hive on Spark的区别与实现
2020-12-20

大数据基础语法有哪些

本篇内容主要讲解“大数据基础语法有哪些”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“大数据基础语法有哪些”吧!1 计算机理论介绍2 编程基础--进制分类、进制转换进制就是进位制。指的是我们来表示
2023-06-02

MySQL数据库基础篇之入门基础命令小结

本文实例讲述了MySQL数据库入门基础命令。分享给大家供大家参考,具体如下: 在日常工作与学习中,无论是开发、运维、还是测试,对于数据库的学习是不可避免的,同时也是日常工作的必备技术之一。在互联网公司,开源产品线比较多,互联网企业所用的数据
2022-06-01

零基础学习教程之Linux下搭建android开发环境

不得已重新配置,这里记下详细步骤,分享给大家。 一、安装jdk,具体步骤如下: 1、将jdk-7u4-linux-i586.tar拷贝到linux下得/home/yan/download目录,新建一个目录/home/yan/android.
2022-06-06

Python基础学习教程:Python基础之基本数据类型(一)

Python基础学习教程:Python基础之基本数据类型(一)
2023-06-02

编程热搜

目录