位置：首页-资讯-后端开发

SparkSQL中DataFrame与DataSet如何使用

2023-06-20 20:52

短信预约 -IT技能 免费直播动态提醒

本篇文章给大家分享的是有关SparkSQL中DataFrame与DataSet如何使用，小编觉得挺实用的，因此分享给大家学习，希望大家阅读完这篇文章后可以有所收获，话不多说，跟着小编一起来看看吧。

1.使用IDEA开发Spark SQL

1.1创建DataFrame/DataSet

指定列名添加Schema

通过StrucType指定Schema

编写样例类，利用反射机制推断Schema

1.1.1指定列名添加Schema

//导包import org.apache.spark.rdd.RDDimport org.apache.spark.sql.SparkSession//代码// 1.创建SparkSession    val spark = SparkSession.builder().master("local[*]").appName("sql").getOrCreate()// 2.使用spark 获取sparkContext 上下文对象    val sc = spark.sparkContext// 3.使用SparkContext 读取文件并按照空格切分 返回RDD    val rowRDD: RDD[(Int, String, Int)] = sc.textFile("./data/person.txt").map(_.split(" ")).map(x=>(x(0).toInt,x(1),x(2).toInt))// 4.导入隐式类    import spark.implicits._//5.将RDD 转换为DataFrame 指定元数据信息    val dataFrame = rowRDD.toDF("id","name","age")//6.数据展示    dataFrame.show()

1.1.2StructType指定Schema

//导包import org.apache.spark.sql.{Row, SparkSession}import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}//编写代码//1.实例SparkSession    val spark = SparkSession.builder().master("local[*]").appName("sql").getOrCreate()//2.根据SparkSession获取SparkContext 上下文对象    val sc = spark.sparkContext// 3.使用SparkContext读取文件并按照空开切分并返回元组    val rowRDD = sc.textFile("./data/person.txt").map(_.split(" ")).map(x=>Row(x(0).toInt,x(1),x(2).toInt))// 4.导入隐式类    import spark.implicits._//5.使用StructType 添加元数据信息    val schema = StructType(List(      StructField("id", IntegerType, true),      StructField("name", StringType, true),      StructField("age", IntegerType, true)    ))//6.将数据与元数据进行拼接 返回一个DataFrame    val dataDF = spark.createDataFrame(rowRDD,schema)//7.数据展示    dataDF.show()

1.1.3反射推断Schema

//导包import org.apache.spark.rdd.RDDimport org.apache.spark.sql.SparkSession//定义单例对象  case class Person(Id:Int,name:String,age:Int)//编写代码//1.实例sparkSession    val spark = SparkSession.builder().master("local[*]").appName("sql").getOrCreate()//2.通过sparkSession获取sparkContext 上下文对象    val sc = spark.sparkContext//3.通过sparkContext 读取文件并按照空格切分 将每一个数据保存到person中    val rowRDD: RDD[Person] = sc.textFile("./data/person.txt").map(_.split(" ")).map(x=>Person(x(0).toInt,x(1),x(2).toInt))// 4.导入隐式类    import spark.implicits._//5.将rowRDD转换为dataFrame    val dataFrame = rowRDD.toDF()    //6.数据展示    dataFrame.show()

以上就是SparkSQL中DataFrame与DataSet如何使用，小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注编程网行业资讯频道。

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

阅读原文内容投诉