我的编程空间,编程开发者的网络收藏夹
学习永远不晚

【赵强老师】在Spark SQL中读取JSON文件

短信预约 信息系统项目管理师 报名、考试、查分时间动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

【赵强老师】在Spark SQL中读取JSON文件

【赵强老师】在Spark SQL中读取JSON文件

Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。为什么要学习Spark SQL?如果大家了解Hive的话,应该知道它是将Hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的程序的复杂性,由于MapReduce这种计算模型执行效率比较慢。所以Spark SQL的应运而生,它是将Spark SQL转换成RDD,然后提交到集群执行,执行效率非常快!同时Spark SQL也支持从Hive中读取数据。 Spark SQL也能自动解析JSON数据集的Schema,读取JSON数据集为DataFrame格式。读取JSON数据集方法为SQLContext.read().json()。该方法将String格式的RDD或JSON文件转换为DataFrame。 需要注意的是,这里的JSON文件不是常规的JSON格式。JSON文件每一行必须包含一个独立的、自满足有效的JSON对象。如果用多行描述一个JSON对象,会导致读取出错。
  • 需要用到的测试数据:people.json
{"name":"Michael"}
{"name":"Andy", "age":30}
{"name":"Justin", "age":19} 
  • 定义路径
val path ="/root/temp/people.json" 
  • 读取Json文件,生成DataFrame:
val peopleDF = spark.read.json(path) 
  • 打印Schema结构信息
peopleDF.printSchema()

 

  • 创建临时视图
peopleDF.createOrReplaceTempView("people") 
  • 执行查询
spark.sql("SELECT name FROM people WHERE age=19").show

 

 

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

【赵强老师】在Spark SQL中读取JSON文件

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

【赵强老师】在Spark SQL中读取JSON文件

Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。为什么要学习Spark SQL?如果大家了解Hive的话,应该知道它是将Hive SQL转换成MapReduce然后提交到
【赵强老师】在Spark SQL中读取JSON文件
2020-05-10

如何在Spark SQL中读取JSON文件

如何在Spark SQL中读取JSON文件,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。val path ="/root/temp/people.json"
2023-06-02

Spark-SQL如何读取JSON文件时反射表头

小编给大家分享一下Spark-SQL如何读取JSON文件时反射表头,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!Spark-SQL 读取JSON文件时反射表头case class StudentInfo(id:Long,n
2023-06-27

SQLServer 错误 825 在失败 %d 次(错误: %ls)之后,按偏移量 %#016I64x 对文件“%ls”读取成功。 SQL Server 错误日志和系统事件日志中的其他消息中可能有更详

详细信息 Attribute 值 产品名称 SQL Server 事件 ID 825 事件源 MSSQLSERVER 组件 SQLEngine 符号名称 B_RETRYWORKED 消息正文 在失败 ...
SQLServer 错误 825 在失败 %d 次(错误: %ls)之后,按偏移量 %#016I64x 对文件“%ls”读取成功。 SQL Server 错误日志和系统事件日志中的其他消息中可能有更详
2023-11-05

编程热搜

目录