我的编程空间,编程开发者的网络收藏夹
学习永远不晚

SparkSQL中DataFrame与DataSet如何使用

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

SparkSQL中DataFrame与DataSet如何使用

本篇文章给大家分享的是有关SparkSQL中DataFrame与DataSet如何使用,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。


1.使用IDEA开发Spark SQL

1.1创建DataFrame/DataSet

指定列名添加Schema

通过StrucType指定Schema

编写样例类,利用反射机制推断Schema

1.1.1指定列名添加Schema
//导包import org.apache.spark.rdd.RDDimport org.apache.spark.sql.SparkSession//代码// 1.创建SparkSession    val spark = SparkSession.builder().master("local[*]").appName("sql").getOrCreate()// 2.使用spark 获取sparkContext 上下文对象    val sc = spark.sparkContext// 3.使用SparkContext 读取文件并按照空格切分 返回RDD    val rowRDD: RDD[(Int, String, Int)] = sc.textFile("./data/person.txt").map(_.split(" ")).map(x=>(x(0).toInt,x(1),x(2).toInt))// 4.导入隐式类    import spark.implicits._//5.将RDD 转换为DataFrame 指定元数据信息    val dataFrame = rowRDD.toDF("id","name","age")//6.数据展示    dataFrame.show()
1.1.2StructType指定Schema
//导包import org.apache.spark.sql.{Row, SparkSession}import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}//编写代码//1.实例SparkSession    val spark = SparkSession.builder().master("local[*]").appName("sql").getOrCreate()//2.根据SparkSession获取SparkContext 上下文对象    val sc = spark.sparkContext// 3.使用SparkContext读取文件并按照空开切分并返回元组    val rowRDD = sc.textFile("./data/person.txt").map(_.split(" ")).map(x=>Row(x(0).toInt,x(1),x(2).toInt))// 4.导入隐式类    import spark.implicits._//5.使用StructType 添加元数据信息    val schema = StructType(List(      StructField("id", IntegerType, true),      StructField("name", StringType, true),      StructField("age", IntegerType, true)    ))//6.将数据与元数据进行拼接 返回一个DataFrame    val dataDF = spark.createDataFrame(rowRDD,schema)//7.数据展示    dataDF.show()
1.1.3反射推断Schema
//导包import org.apache.spark.rdd.RDDimport org.apache.spark.sql.SparkSession//定义单例对象  case class Person(Id:Int,name:String,age:Int)//编写代码//1.实例sparkSession    val spark = SparkSession.builder().master("local[*]").appName("sql").getOrCreate()//2.通过sparkSession获取sparkContext 上下文对象    val sc = spark.sparkContext//3.通过sparkContext 读取文件并按照空格切分 将每一个数据保存到person中    val rowRDD: RDD[Person] = sc.textFile("./data/person.txt").map(_.split(" ")).map(x=>Person(x(0).toInt,x(1),x(2).toInt))// 4.导入隐式类    import spark.implicits._//5.将rowRDD转换为dataFrame    val dataFrame = rowRDD.toDF()    //6.数据展示    dataFrame.show()

以上就是SparkSQL中DataFrame与DataSet如何使用,小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注编程网行业资讯频道。

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

SparkSQL中DataFrame与DataSet如何使用

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

SparkSQL中DataFrame与DataSet如何使用

本篇文章给大家分享的是有关SparkSQL中DataFrame与DataSet如何使用,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。1.使用IDEA开发Spark SQL1.1
2023-06-20

如何在Python中使用DataFrame

如何在Python中使用DataFrame?相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。1、方法说明df.values:返回一个 ndarray 类型的对象,包涵 DataFr
2023-06-15

如何在Pytorch中使用Dataset和DataLoader读取数据

本篇文章给大家分享的是有关如何在Pytorch中使用Dataset和DataLoader读取数据,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。一、前言确保安装scikit-im
2023-06-15

如何使用pandas中DataFrame检测重复值

这篇文章主要介绍如何使用pandas中DataFrame检测重复值,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!本文详解如何使用pandas查看dataframe的重复数据,判断是否重复,以及如何去重DataFram
2023-06-15

k8s中job与cronjob如何使用

本篇内容介绍了“k8s中job与cronjob如何使用”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!一、前言job,顾名思义就是任务,job
2023-07-05

Android中Handler与Message如何使用

这期内容当中小编将会给大家带来有关Android中Handler与Message如何使用,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。Message:Message是在线程之间传递的消息,它可以在内部携带
2023-05-30

JS中如何使用async与await

小编给大家分享一下JS中如何使用async与await,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!一、asyncasync创建一个异步函数来定义一个代码块,在其
2023-06-22

Guava中ListenableFuture与RateLimiter如何使用

Guava中ListenableFuture与RateLimiter如何使用,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。概念ListenableFuture顾名思义就是可
2023-06-17

HttpSessionListener与Filter如何在Jetty9中使用

HttpSessionListener与Filter如何在Jetty9中使用?很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。HttpSessionListener
2023-05-31

JSONObject与JSONArray如何在Java中使用

本篇文章给大家分享的是有关JSONObject与JSONArray如何在Java中使用,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。1.JSONObject与JSONArray
2023-05-30

linux中如何安装与使用axel

这篇文章将为大家详细讲解有关linux中如何安装与使用axel,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。运维工作中,常常需要下载文件,因为网站下载速度限制或者网络等原因导致下载让人无法忍受,前面有介绍
2023-06-28

vue3中的ref与reactive如何使用

本文小编为大家详细介绍“vue3中的ref与reactive如何使用”,内容详细,步骤清晰,细节处理妥当,希望这篇“vue3中的ref与reactive如何使用”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。一、r
2023-07-06

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录