位置：首页-资讯-后端开发

SparkSQL基础知识都有哪些

2023-06-02 12:46

短信预约 -IT技能 免费直播动态提醒

这篇文章给大家介绍SparkSQL基础知识都有哪些，内容非常详细，感兴趣的小伙伴们可以参考借鉴，希望对大家能有所帮助。

一.SparkSQL架构

1.架构

SparkSQL基础知识都有哪些

2.解释

一个sql 过来 解析成unresolved，只拿出来字段名和表名但是不知道字段名和表名在哪个位置需要通过Schema 确定表的位置等信息，生成逻辑执行计划，Logical,知道数据从哪里来了通过一些列优化过滤生成物理执行计划Physical最后把物理执行计划放到spark集群上运行

3.样例

SparkSQL基础知识都有哪些

二.SparkSQL的几点误区

Spark SQL就是写SQL,这是错误的观点Spark SQL不是SQL,超出SQL,因为SQL是其一部分Spark SQL 是处理结构化数据的，只是Spark中的一个模块Spark SQL 与 Hive on Spark  不是一个东西Spark SQL 是spark里面的Hive on Spark 的功能是比Spark SQL多的Hive on Spark 稳定性不是很好

三.SQL的几个几点注意

1.SQL注意

关系数据库集群成本很高，还是有限的SQL : schema + file使用sql的前提就是有schema ，作用到文件上去hive是进程的hive2.0 默认引擎是TezHive on Spark 就是把hive执行引擎改成spark

2.执行引擎

mrsparkTez

3.SparkSQL的JOIN

spark sql 可以跨数据源进行join，例如hdfs与mysql里表内容joinSpark SQL运行可以不用hive，只要你连接到hive的metastore就可以

3.hive底层的hiveserver2协议走的是thrift

hiveserver2开启可以用JDBC或者ODBC直接连接

SparkSQL基础知识都有哪些

四.连接Hive的几种方式

1.三种方式

spark-sql 与 spark-shell  ，thriftserverthriftserver对应hive里面的hiveserver2

2.thriftserver连接方式

./beeline -u jdbc:hive2://localhost:10000 -n root

SparkSQL基础知识都有哪些

3.thriftserver和spark-sql,spark-shell 的区别在哪？

spark-shell、spark-sql 都是是一个独立的 spark application，启动几个就要几个application，非常耗资源用thriftserver，无论启动多少个客户端（beeline）连接在一个thriftserver，是一个独立的spark application，后面不用在重新申请资源。前一个beeline缓存的，下一个beeline也可以用用thriftserver，可在ui看执行计划，优化有优势

4.注意情况

这个要起来，要不spark-shell， spark-sql，连接不上，这个跟hive一样

SparkSQL基础知识都有哪些

5.可能出错

spark-shell --master local[2] --jars /soft/hive/lib/mysql-connector-java-8.0.12.jar 这样启动不起来你可以试试把mysql-connector-java-8.0.12.jar 放到spark的jars里

SparkSQL基础知识都有哪些

6.解决

SparkSQL基础知识都有哪些

关于SparkSQL基础知识都有哪些就分享到这里了，希望以上内容可以对大家有一定的帮助，可以学到更多知识。如果觉得文章不错，可以把它分享出去让更多的人看到。

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

阅读原文内容投诉

SparkSQL基础知识都有哪些

下载Word文档到电脑，方便收藏和打印～

下载Word文档

SparkSQL基础知识都有哪些

一.SparkSQL架构

1.架构

2.解释

3.样例

二.SparkSQL的几点误区

三.SQL的几个几点注意

1.SQL注意

2.执行引擎

3.SparkSQL的JOIN

3.hive底层的hiveserver2协议走的是thrift

四.连接Hive的几种方式

1.三种方式

2.thriftserver连接方式

3.thriftserver和spark-sql,spark-shell 的区别在哪？

4.注意情况

5.可能出错

6.解决

SparkSQL基础知识都有哪些

相关文章

猜你喜欢

SparkSQL基础知识都有哪些

.NET序列化基础知识都有哪些

常见的Java基础语法知识都有哪些

HTTP 基础知识有哪些

mysql基础知识有哪些

Socket基础知识有哪些

mysql有哪些基础知识

vue2.0基础知识有哪些

node.js基础知识有哪些

canvas基础知识有哪些

VUE基础知识有哪些

有哪些CSS基础知识

React基础知识有哪些

ABAP基础知识有哪些

WCF基础知识有哪些

java基础知识有哪些

Laravel基础知识有哪些

CSS基础知识有哪些

IPv6基础知识有哪些

有哪些Python基础知识

热门标签

编程热搜

编程资源站

目录

感谢您的提交，我们服务专员将在30分钟内给您回复