我的编程空间,编程开发者的网络收藏夹
学习永远不晚

Spark的安装及其配置

短信预约 信息系统项目管理师 报名、考试、查分时间动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

Spark的安装及其配置

Spark的安装及其配置

1.Spark下载

https://archive.apache.org/dist/spark/

 

2.上传解压,配置环境变量 配置bin目录

解压:tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz -C /usr/local/soft/

改名:mv spark-2.4.5-bin-hadoop2.7/ spark-2.4.5

配置环境变量:vim /etc/profile

添加环境变量:

export SPARK_HOME=/usr/local/soft/spark-2.4.5
export PATH=$PATH:$SPARK_HOME/bin

保存配置:source /etc/profile

 

3.修改配置文件 conf

修改spark-env.sh: cp spark-env.sh.template spark-env.sh

增加配置:

export SPARK_MASTER_IP=master
export SPARK_MASTER_PORT=7077

export SPARK_WORKER_CORES=2
export SPARK_WORKER_INSTANCES=1
export SPARK_WORKER_MEMORY=2g
export JAVA_HOME=/usr/local/soft/jdk1.8.0_171

 

修改:cp slaves.template slaves

 

增加:

node1

node2

 

4.发放到其他节点

xsync spark-2.4.5

(xsync是自己写的脚本,在安装Hadoop的时候写过)

 

4、在主节点执行启动命令
启动集群,在master中执行
./sbin/start-all.sh

 

 

 http://master:8080/  访问spark ui

 

 

 5.检验安装的Spark

1. standalone client模式 日志在本地输出,一班用于上线前测试(bin/下执行)

需要进入到spark-examples_2.11-2.4.5.jar 包所在的目录下执行
cd /usr/local/soft/spark-2.4.5/examples/jars

spark-submit --class org.apache.spark.examples.SparkPi --master spark://master:7077 --executor-memory 512m --total-executor-cores 1 spark-examples_2.11-2.4.5.jar 100


2. standalone cluster模式 上线使用,不会再本地打印日志
spark-submit --class org.apache.spark.examples.SparkPi --master spark://master:7077 --driver-memory 512m --deploy-mode cluster --supervise --executor-memory 512M --total-executor-cores 1 spark-examples_2.11-2.4.5.jar 100

spark-shell spark 提供的一个交互式的命令行,可以直接写代码

spark-shell master spark://master:7077

 

6.整合yarn

在公司一般不适用standalone模式,因为公司一般已经有yarn 不需要搞两个资源管理框架

停止spark集群
在spark sbin目录下执行 ./stop-all.sh

spark整合yarn只需要在一个节点整合, 可以删除node1 和node2中所有的spark 文件

1、增加hadoop 配置文件地址

vim spark-env.sh
增加
export HADOOP_CONF_DIR=/usr/local/soft/hadoop-2.7.6/etc/hadoop

 

 

2、往yarn提交任务需要增加两个配置 yarn-site.xml(/usr/local/soft/hadoop-2.7.6/etc/hadoop/yarn-site.xml)

先关闭yarn
stop-yarn.sh


yarn.nodemanager.pmem-check-enabled
false


yarn.nodemanager.vmem-check-enabled
false

 

4、同步到其他节点,重启yarn
scp -r yarn-site.xml node1:`pwd`
scp -r yarn-site.xml node2:`pwd`


启动yarn
start-yarn.sh


cd /usr/local/soft/spark-2.4.5/examples/jars

3.spark on yarn client模式 日志在本地输出,一班用于上线前测试
spark-submit --class org.apache.spark.examples.SparkPi --master yarn-client --executor-memory 512M --num-executors 2 spark-examples_2.11-2.4.5.jar 100


4.spark on yarn cluster模式 上线使用,不会再本地打印日志 减少io
spark-submit --class org.apache.spark.examples.SparkPi --master yarn-cluster --executor-memory 512m --num-executors 2 --executor-cores 1 spark-examples_2.11-2.4.5.jar 100

获取yarn程序执行日志 执行成功之后才能获取到
yarn logs -applicationId application_1560967444524_0003

 

hdfs webui
http://node1:50070

yarn ui
http://node1:8088

 

在idea中使用spark做wordCount

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object Demo1WordCount {
  def main(args: Array[String]): Unit = {

    // Spark配置文件对象
    val conf: SparkConf = new SparkConf()
    // 设置Spark程序的名字
    conf.setAppName("Demo1WordCount")
    // 设置运行模式为local模式 即在idea本地运行
    conf.setMaster("local")

    // Spark的上下文环境,相当于Spark的入口
    val sc: SparkContext = new SparkContext(conf)

    // 词频统计
    // 1、读取文件
    
    val linesRDD: RDD[String] = sc.textFile("spark/data/words")

    // 2、将每一行的单词切分出来
    // flatMap: 在Spark中称为 算子
    // 算子一般情况下都会返回另外一个新的RDD
    val wordsRDD: RDD[String] = linesRDD.flatMap(line => line.split(","))

    // 3、按照单词分组
    val groupRDD: RDD[(String, Iterable[String])] = wordsRDD.groupBy(word => word)

    // 4、统计每个单词的数量
    val countRDD: RDD[String] = groupRDD.map(kv => {
      val word: String = kv._1
      val words: Iterable[String] = kv._2
      // words.size直接获取迭代器的大小
      // 因为相同分组的所有的单词都会到迭代器中
      // 所以迭代器的大小就是单词的数量
      word + "," + words.size
    })

    // 5、将结果进行保存
    countRDD.saveAsTextFile("spark/data/wordCount")

  }

}

  

 

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

Spark的安装及其配置

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

Spark的安装及其配置

1.Spark下载 https://archive.apache.org/dist/spark/ 2.上传解压,配置环境变量 配置bin目录解压:tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz -C /usr/local/sof
Spark的安装及其配置
2018-09-29

怎么安装Ubuntu nginx以及其配置安装Php和mysql

本篇内容主要讲解“怎么安装Ubuntu nginx以及其配置安装Php和mysql”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“怎么安装Ubuntu nginx以及其配置安装Php和mysql”
2023-06-16

怎么用pycharm安装pyqt5及其相关配置

本篇内容介绍了“怎么用pycharm安装pyqt5及其相关配置”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!一、配置专门的虚拟环境原因:不同
2023-06-30

centOS7下Spark安装配置教程详解

环境说明: 操作系统: centos7 64位 3台 centos7-1 192.168.190.130 master centos7-2 192.168.190.129 slave1
2022-06-04

varnish3安装及配置

1.varnish安装下载varnish软件  (此处下载3.0.2版本) #wget   http://repo.varnish-cache.org/source/varnish-3.0.2.tar.gz#tar -xvf varnish
2023-01-31

JMeter安装及配置-Mac

JMeter安装及配置-Mac 本章要点 前置条件命令行安装压缩包安装 在Mac上安装对应的JMeter工具有两种方式:一种直接借助终端命令行brew进行安装;另外一种和Window电脑一样去JMeter官网下载压缩包安装。 JMeter不
2023-08-18

Android SDK安装及配置

Android SDK(Software Development Kit)是一个开发Android应用程序所需的开发工具包。下面是Android SDK的安装及配置步骤:1. 下载Android Studio:前往Android开发者官网(
2023-09-13

3、SQLSVR安装及配置

安装常用软件及必要组件(如.net3.5),进行基本服务器配置,并安装vm-tools,进行初始状态快照。安装SQLSVR2012,标准操作不再冗述。安装完成后创建Vcenter数据库
2023-01-31

MyEclipse 6.0安装及配置

要安装和配置MyEclipse 6.0,您可以按照以下步骤操作:1. 下载MyEclipse 6.0安装文件。您可以从MyEclipse官方网站或其他可信的软件下载网站下载安装文件。2. 双击安装文件,启动安装向导。按照向导的指示完成安装过
2023-09-12

2、Automapper安装及配置

一、 安装我们安装是在 vs 中使用Nuget的方式进行安装不过安装时需注意一件事情就是,版本问题,我示例使用的是.net framework 4.5.2,所以我安装AutoMapper的版本是7.0,如果安装失败,把版本降低一下就可以。 二、配置static
2、Automapper安装及配置
2018-10-02

Python中PySide2的安装及配置

以前学java的时候,接触过用Swing编写GUI程序,在入职第一份工作的时候,公司的入职培训还教了我用WPF编写GUI客户端,今天,学习到了一个新的方式:那就是使用Python中的相关库进行编写GUI程序。 在python中,支持图形化界
2022-06-02

gradle的安装配置及使用

一、gradle的安装 1.官网下载链接:https://gradle.org/releases/ 1、下载后解压 2、配置环境变量,新建 GRADLE_HOME 环境变量指向你的 Gradle 解压路径 3、将 %GRADLE_H
2023-08-19

编程热搜

目录