我的编程空间,编程开发者的网络收藏夹
学习永远不晚

Win10怎么搭建Pyspark2.4.4+Pycharm开发环境

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

Win10怎么搭建Pyspark2.4.4+Pycharm开发环境

这篇文章主要介绍“Win10怎么搭建Pyspark2.4.4+Pycharm开发环境”,在日常操作中,相信很多人在Win10怎么搭建Pyspark2.4.4+Pycharm开发环境问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Win10怎么搭建Pyspark2.4.4+Pycharm开发环境”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!

下载资源

  • hadoop3.0.0

  • spark-2.4.4-bin-without-hadoop

  • winutils下载(对应hadoop3.0.1的bin目录覆盖本地hadoop的bin目录)

  • jdk1.8(默认已按照配置)

  • conda/anaconda(默认已安装)

注意:cdh7.3.2的spark为2.4.0但是使用2.4.0本地pyspark有bug,下载的文件可能在第一次解压缩后,如未出现目录,则需要修改文件后缀为zip,再次解压缩

python环境(推荐cmd非powershell)

spark2.4.x不支持python3.7以上版本

conda create -n pyspark2.4 python=3.7activate pyspark2.4pip install py4jpip install psutil

pyspark安装方法(推荐一)

  • %SPARK_HOME%\python\pyspark目录复制到%CONDA_HOME%\pyspark2.4\Lib\site-packages下

  • pip install pyspark=2.4.4

配置环境变量(自行百度)

以下只是示例,根据实际情况修改,路径不要有空格,如果有使用mklink /J 软链接 目录路径

系统变量添加HADOOP_HOMEE:\bigdata\ENV\hadoop-3.0.0 SPARK_HOMEE:\bigdata\ENV\spark-2.4.4-bin-without-hadoop PYSPARK_PYTHONC:\Users\zakza\anaconda3\envs\pyspark2.4\python.exe PATH添加%HADOOP_HOME%\bin%SPARK_HOME%\bin

修改配置文件

配置一 %SPARK_HOME%\conf目录下新建spark-env.cmd文件,内容如下

FOR /F %%i IN ('hadoop classpath') DO @set SPARK_DIST_CLASSPATH=%%i

配置二 %SPARK_HOME%\conf\目录下新建log4j.properties文件,内容如下

## Licensed to the Apache Software Foundation (ASF) under one or more# contributor license agreements.  See the NOTICE file distributed with# this work for additional information regarding copyright ownership.# The ASF licenses this file to You under the Apache License, Version 2.0# (the "License"); you may not use this file except in compliance with# the License.  You may obtain a copy of the License at##    http://www.apache.org/licenses/LICENSE-2.0## Unless required by applicable law or agreed to in writing, software# distributed under the License is distributed on an "AS IS" BASIS,# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.# See the License for the specific language governing permissions and# limitations under the License.# # Set everything to be logged to the consolelog4j.rootCategory=WARN, consolelog4j.appender.console=org.apache.log4j.ConsoleAppenderlog4j.appender.console.target=System.errlog4j.appender.console.layout=org.apache.log4j.PatternLayoutlog4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n # Set the default spark-shell log level to WARN. When running the spark-shell, the# log level for this class is used to overwrite the root logger's log level, so that# the user can have different defaults for the shell and regular Spark apps.log4j.logger.org.apache.spark.repl.Main=WARN # Settings to quiet third party logs that are too verboselog4j.logger.org.spark_project.jetty=WARNlog4j.logger.org.spark_project.jetty.util.component.AbstractLifeCycle=ERRORlog4j.logger.org.apache.spark.repl.SparkIMain$exprTyper=INFOlog4j.logger.org.apache.spark.repl.SparkILoop$SparkILoopInterpreter=INFOlog4j.logger.org.apache.parquet=ERRORlog4j.logger.parquet=ERROR # SPARK-9183: Settings to avoid annoying messages when looking up nonexistent UDFs in SparkSQL with Hive supportlog4j.logger.org.apache.hadoop.hive.metastore.RetryingHMSHandler=FATALlog4j.logger.org.apache.hadoop.hive.ql.exec.FunctionRegistry=ERROR

配置Pycharm

注意:配置好环境变量重启下电脑,不然可能存在pycharm无法加载系统环境变量的情况

wc.txt

hello hadoophadoop spark pythonflink storm sparkmaster slavefirstsecond thridkafka scikit-learnflumehive spark-streaminghbase

wordcount测试代码

from pyspark import SparkContext if __name__ == '__main__':    sc = SparkContext('local', 'WordCount')    textFile = sc.textFile("wc.txt")    wordCount = textFile.flatMap(lambda line: line.split(" ")).map(lambda word: (word, 1)).reduceByKey(        lambda a, b: a + b)    wordCount.foreach(print)

正常运行结果:

Win10怎么搭建Pyspark2.4.4+Pycharm开发环境

常见问题:

spark-shell报错Caused by: java.lang.ClassNotFoundException: org.slf4j.Logger

解决方法:见上述配置一

Pyspark报错ModuleNotFoundError: No module named 'resource'

解决方法:spark2.4.0存在的bug,使用spark2.4.4

Pyspark报错org.apache.spark.sparkexception: python worker failed to connect back

解决方法:环境变量未配置正确,检查是否遗漏,并检查pycharm的configuration的环境变量里面能够看到

其他

关于%SPARK_HOME%\python\lib下的py4j-0.10.7-class="lazy" data-src.zip,pyspark.zip(未配置运行正常),也可以尝试添加到项目

Win10怎么搭建Pyspark2.4.4+Pycharm开发环境

到此,关于“Win10怎么搭建Pyspark2.4.4+Pycharm开发环境”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注编程网网站,小编会继续努力为大家带来更多实用的文章!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

Win10怎么搭建Pyspark2.4.4+Pycharm开发环境

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

Win10怎么搭建Pyspark2.4.4+Pycharm开发环境

这篇文章主要介绍“Win10怎么搭建Pyspark2.4.4+Pycharm开发环境”,在日常操作中,相信很多人在Win10怎么搭建Pyspark2.4.4+Pycharm开发环境问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法
2023-07-05

Android开发环境怎么搭建

要搭建Android开发环境,您需要按照以下步骤进行操作:1. 安装Java Development Kit (JDK):Android开发需要使用Java语言。您需要在计算机上安装JDK。可以从Oracle官方网站下载适合您操作系统的JD
2023-08-17

Laravel开发环境怎么搭建

本文小编为大家详细介绍“Laravel开发环境怎么搭建”,内容详细,步骤清晰,细节处理妥当,希望这篇“Laravel开发环境怎么搭建”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。开始前你需要先去安装一个docke
2023-07-04

怎么搭建linux开发环境

搭建Linux开发环境可以分为以下几个步骤:安装Linux操作系统:选择一个适合自己的Linux发行版,如Ubuntu、CentOS等,并将其安装在计算机上。更新系统软件包:在终端中使用适当的命令(如apt-get或yum)来更新系统软件包
2023-10-26

怎么搭建android开发环境

要搭建Android开发环境,需要以下步骤:1. 安装Java Development Kit (JDK)Android开发需要使用Java语言,因此需要先安装JDK。你可以从Oracle官网下载合适的JDK版本,然后按照安装向导进行安装。
2023-08-24

怎么搭建PHP开发环境

这篇文章主要介绍怎么搭建PHP开发环境,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!安装Apache1、下载Apache,地址:http://www.apachelounge.com/download/,如下图:
2023-06-15

PyCharm使用教程之搭建Python开发环境

PyCharm是JetBrains系列产品的一员,也是现在最好用的IDE。PyCharm维持了JetBrains一贯高度智能的作风,简要枚举如下:独特的本地VCS系统强大的重构功能基于上下文的智能代码提示和纠错可以与IDEA、PhpStor
2022-06-04

docker怎么搭建php开发环境

要搭建PHP开发环境,可以使用Docker来快速部署。以下是基本的步骤:1. 安装Docker:根据你的操作系统,安装适合的Docker版本。可以在Docker官方网站上找到相关的安装指南。2. 创建Dockerfile:在项目根目录下创建
2023-08-18

docker怎么搭建python开发环境

要搭建Python开发环境,可以使用Docker来进行部署。以下是一些步骤来设置Docker中的Python开发环境:1. 首先,安装Docker并确保它已成功安装在您的系统中。2. 创建一个Dockerfile,该文件用于定义构建镜像的配
2023-08-18

docker怎么搭建java开发环境

要搭建Java开发环境,可以使用Docker容器来快速部署和管理开发环境。以下是一些步骤:下载并安装Docker:首先需要在你的机器上安装Docker。可以到Docker官网(https://docs.docker.com/get-dock
docker怎么搭建java开发环境
2024-04-08

linux怎么搭建node.js开发环境

这篇“linux怎么搭建node.js开发环境”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“linux怎么搭建node.js
2022-11-30

android开发环境和正式环境怎么搭建

要搭建Android开发环境和正式环境,你需要遵循以下步骤:1. 安装Java开发工具包(JDK):Android开发需要使用Java编程语言,所以需要先安装Java开发工具包。你可以从Oracle官网下载最新版本的JDK并按照安装指南进行
2023-08-11

搭建 Python 开发环境

准备工作Python是一种解释型、面向对象、动态数据类型的高级程序设计语言。首先我们来看看系统中是否已经存在 Python ,并安装一些开发工具包:安装前准备查看当前系统中的 Python 版本,可以看到实验室的这台服务器已经安装了 Pyt
2023-01-31

搭建pomelo 开发环境

开发前提条件: Windows系统,请确保你的Windows系统包含源码编译工具。Node.js的源码主要由C++代码和JavaScript代码构成,但是却用 gyp 工具来做源码的项目管理,该工具采用Python语言写成的。在Window
2022-06-04

JSP开发环境搭建

搭建JSP开发环境Java的开发环境 :JDK和JRE 支持Java语言的Web应用服务器:Tomcat开发工具:eclipse(一)JDK的安装和配置1.下载JDK1.6 for windows,http://www.oracle.com/technetwo
JSP开发环境搭建
2020-02-15

编程热搜

目录