【赵强老师】在Spark SQL中读取JSON文件

2020-05-10 17:37

短信预约 信息系统项目管理师 报名、考试、查分时间动态提醒

【赵强老师】在Spark SQL中读取JSON文件

Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。为什么要学习Spark SQL？如果大家了解Hive的话，应该知道它是将Hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduce的程序的复杂性，由于MapReduce这种计算模型执行效率比较慢。所以Spark SQL的应运而生，它是将Spark SQL转换成RDD，然后提交到集群执行，执行效率非常快！同时Spark SQL也支持从Hive中读取数据。 Spark SQL也能自动解析JSON数据集的Schema，读取JSON数据集为DataFrame格式。读取JSON数据集方法为SQLContext.read().json()。该方法将String格式的RDD或JSON文件转换为DataFrame。需要注意的是，这里的JSON文件不是常规的JSON格式。JSON文件每一行必须包含一个独立的、自满足有效的JSON对象。如果用多行描述一个JSON对象，会导致读取出错。

需要用到的测试数据：people.json

{"name":"Michael"}
{"name":"Andy", "age":30}
{"name":"Justin", "age":19}

定义路径

val path ="/root/temp/people.json"

读取Json文件，生成DataFrame：

val peopleDF = spark.read.json(path)

打印Schema结构信息

peopleDF.printSchema()

创建临时视图

peopleDF.createOrReplaceTempView("people")

执行查询

spark.sql("SELECT name FROM people WHERE age=19").show

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

【赵强老师】在Spark SQL中读取JSON文件

阅读原文内容投诉

【赵强老师】在Spark SQL中读取JSON文件

下载Word文档到电脑，方便收藏和打印～

下载Word文档

【赵强老师】在Spark SQL中读取JSON文件

【赵强老师】在Spark SQL中读取JSON文件

相关文章

猜你喜欢

【赵强老师】在Spark SQL中读取JSON文件

如何在Spark SQL中读取JSON文件

Spark-SQL如何读取JSON文件时反射表头

SQLServer 错误 825 在失败 %d 次(错误: %ls)之后，按偏移量 %#016I64x 对文件“%ls”读取成功。 SQL Server 错误日志和系统事件日志中的其他消息中可能有更详

热门标签

编程热搜

Oracle Study--Oracle RAC CacheFusion（MindMap）

报表SQL

[mysql]mysql8修改root密码

MySQL专题3之MySQL管理

linux怎么查看mysql版本号

navicat导出csv乱码的方法

Mongodb数据库中mongostat工具用法

mysql如何查看帮助

navicat如何设置外键

centos7如何查看mysql的版本

编程资源站

2021年下半年软考高级信息系统项目管理师高频考点精选资料

2021下半年软考高级信息系统技术知识点记忆口诀精选资料

2021下半年软考《信息系统项目管理师》考试真题及答案精选资料

2021下半年软考高级考试备考攻略精选资料

2021年软考高级《信息系统项目管理师》巩固练习题汇总精选资料

2021下半年软考高级信息系统项目管理师30个易考知识点汇总精选资料

2021下半年软考高级知识点这样记，还担心记不住吗精选资料

2021年下半年软考高级考试重点汇总精选资料

2021下半年软考高级信息系统项目管理师计算公式汇总精选资料

2021年下半年软考高级《信息系统项目管理师》模拟试题精选资料

信息系统项目管理师选择题每日一练（2024）历年试题

2023年下半年信息系统项目管理师综合知识真题演练历年试题

目录

【赵强老师】在Spark SQL中读取JSON文件

【赵强老师】在Spark SQL中读取JSON文件

相关文章

猜你喜欢

【赵强老师】在Spark SQL中读取JSON文件

如何在Spark SQL中读取JSON文件

Spark-SQL如何读取JSON文件时反射表头

SQLServer 错误 825 在失败 %d 次(错误: %ls)之后，按偏移量 %#016I64x 对文件“%ls”读取成功。 SQL Server 错误日志和系统事件日志中的其他消息中可能有更详

热门标签

编程热搜

编程资源站

目录

感谢您的提交，我们服务专员将在30分钟内给您回复