我的编程空间,编程开发者的网络收藏夹
学习永远不晚

python开发sparkSQL应用

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

python开发sparkSQL应用

准备条件:

  1. 部署hadoop集群

  2. 部署spark集群

  3. 安装python(本人安装的是anaconda3,python是3.6)


配置环境环境变量:

vi .bashrc  #添加如下内容
export SPARK_HOME=/opt/spark/current
export PYTHONPATH=$SPARK_HOME/python/:$SPARK_HOME/python/lib/py4j-0.10.4-class="lazy" data-src.zip

ps:spark里面会自带一个pyspark模块,但是本人官方下载的 spark2.1中的pyspark 与 python3.6 不兼容,存在bug,如果看官用的也是 python3的话,建议到githup下载最新的 pyspark 替换掉$SPARK_HOME/python目录下面的pyspark。


开启打怪升级:

1.启动hadoop集群和spark集群

wKiom1jCVlixB8kQAAGFqgUZuCI747.png-wh_50

wKioL1jCVlmivTckAAJOWt1bsw4843.png-wh_50

2.将数据传到hadoop文件系统上,people.json是官方提供的案例数据,salary.json是本人自己新建的数据

hadoop fs -mkdir -p /user/hadoop/examples/class="lazy" data-src/main/resources/
hadoop fs -put people.json /user/hadoop/examples/class="lazy" data-src/main/resources/
hadoop fs -put salary.json /user/hadoop/examples/class="lazy" data-src/main/resources/

wKioL1jCVW2BmKrnAADD5olPo3M605.png-wh_50

3.编写python SparkSQL程序

# -*- coding: utf-8 -*-
"""
Created on Wed Feb 22 15:07:44 2017
练习SparkSQL
@author: wanghuan
"""
from pyspark.sql import SparkSession

spark = SparkSession.builder.master("spark://cent0s7Master:7077").appName("Python Spark SQL basic example").config("spark.some.config.option", "some-value") 
.getOrCreate()
#ssc=SparkContext("local[2]","sparksqltest")
peopleDF = spark.read.json("examples/class="lazy" data-src/main/resources/people.json")
salaryDF = spark.read.json("examples/class="lazy" data-src/main/resources/salary.json")
#peopleDF.printSchema()

# Creates a temporary view using the DataFrame
peopleDF.createOrReplaceTempView("people")
salaryDF.createOrReplaceTempView("salary")
# SQL statements can be run by using the sql methods provided by spark
teenagerNamesDF = spark.sql("SELECT a.name,a.age,b.salary FROM people a,salary b where a.name=b.name and a.age <30 and b.salary>5000")
teenagerNamesDF.show()

4.运行SparkSQL 应用

wKioL1jCWASTDnHIAAD6heGNgnw930.png-wh_50

wKiom1jCWGTBWM6_AAG0caMnK84363.png-wh_50

运行花了42秒(这个执行时间我觉得有点长,应该跟本人虚拟机性能不咋地相关,本人就是个dell笔记本跑四个虚拟机),结果出来了, 19岁的Justin工资就到了10000了,真是年轻有为呀。


ps:本人原打算是用java或者scala来开发spark应用的,但是,配置开发环境真的是心酸的历程,最麻烦的是scala的编译环境,sbt或者maven下载很多包,国外的包下载不下来(原因大家都懂的)。我只能转而用解释性的python来编写了,至少不用下载国外的编译包了。

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

python开发sparkSQL应用

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

python开发sparkSQL应用

准备条件:部署hadoop集群部署spark集群安装python(本人安装的是anaconda3,python是3.6)配置环境环境变量:vi .bashrc  #添加如下内容export SPARK_HOME=/opt/spark/cur
2023-01-31

IDEA如何开发配置SparkSQL

这篇文章将为大家详细讲解有关IDEA如何开发配置SparkSQL,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。1.添加依赖在idea项目的pom.xml中添加依赖。