我的编程空间,编程开发者的网络收藏夹
学习永远不晚

SparkSQL指的是什么

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

SparkSQL指的是什么

这篇文章主要为大家展示了“SparkSQL指的是什么”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“SparkSQL指的是什么”这篇文章吧。

一、 Spark SQL介绍

        

        Spark SQL是Apache Spark's的一个模块,用来处理结构化数据,1.0后产生;SQL语句主要体现在关系型数据库上,大数据中基于Hadoop的SQL有Hive(SQL on Hadoop)但是MapReduce计算过程中大量的磁盘落地过程消耗了大量I/O,降低运行效率,简单说就是稳定性高,计算慢,离线批处理的框架,因此其他的SQL on Hadoop工具产生。

        SQL on Hadoop

        •  Hive        -- 把HQL语句转换MapReduce作业 提交到Yarn执行(元数据重要性)

        •  Impala    -- 开源的交互式SQL查询引擎,基于内存处理

        •  Presto    -- 分布式SQL查询引擎

        •  Shark     -- SQL语句翻译Spark作业,Hive跑在Spark之上,依赖Hive与Hive兼容性差

        •  Drill        -- 查询引擎包括SQL/FILE/HDFS/S3

        • Phoenix  -- 基于Hbase上的SQL引擎

        Hive on SQL是社区发展另外一个路线,属于Hive发展计划,把Spark作为Hive的执行引擎;之前我们说的HIve作业跑在Hadoop的MapReduce上的;现在Hive不受限于一个引擎,可以采用MapReduce、Tez、Spark等引擎。

二、 Spark SQL特性

        • 集成性-SQL查询与应用程序对接

        • 统一的数据访问-连接各种数据源(Hive, Avro, Parquet, ORC, JSON, and JDBC)

        • 与Hive的集成性,不需要Hive,使用Hive存在Metastores即可或者使用Hive-site文件

        • 通过JDBC和ODBC连接,start-thriftserver底层走的也是Thrift协议(Hive_server2底层基于Thrift协议,)

        • Spark SQL不仅仅是SQL,远超出SQL

三、 Spark SQL优势

      A:内存列存储(In-Memory Columnar Storage)

    Spark SQL的表数据在内存中的存储采用是内存列式存储,而不是原生态JVM对象存储方式。

     SparkSQL指的是什么

     Spark SQL列式存储将数据类型相同列采用原生数组来存储,将Hive支持的复杂数据类型(如array、map等)先序化后并接成一个字节数组来存储。这样,每个列创建一个JVM对象,从而导致可以快速的GC和紧凑的数据存储;额外的,还可以使用低廉CPU开销的高效压缩方法(如字典编码、行长度编码等压缩方法)降低内存开销;更有趣的是,对于分析查询中频繁使用的聚合特定列,性能会得到很大的提高,原因就是这些列的数据放在一起,更容易读入内存进行计算

    B:字节码生成技术(bytecode generation,即CG)

        数据库查询中有一个昂贵的操作是查询语句中的表达式,主要是由于JVM的内存模型引起的。比如如下一个查询:

中有一个昂在这个查询里,如果采用通用的SQL语法途径去处理,会先生成一个表达式树。

select a+b from table

SparkSQL指的是什么

在物理处理这个表达式树的时候,将会如图所示的7个步骤

    1.  调用虚函数Add.eval(),需要确认Add两边的数据类型

    2.  调用虚函数a.eval(),需要确认a的数据类型

    3.  确定a的数据类型是Int,装箱

    4.  调用虚函数b.eval(),需要确认b的数据类型

    5.  确定b的数据类型是Int,装箱

    6.  调用Int类型的Add

    7.  返回装箱后的计算结果

  C:Scala代码优化

   ...............

四、 Spark SQL运行架构

          Catalyst就SparkSQL核心部分,性能的优劣影响整体的性能,由于发展时间短,虚线部分是以后版本要实现功能,实现部分是已经实现功能。
        Unresolved Logical Plan:未解析的逻辑执行计划

        Schema Catalog:元数据管理套用Unresolved Logical Plan生成Logical Plan

        Logical Plan:生成逻辑执行计划

        Optimized Logical Plan:对生生成的Logical Plan进行优化,生成物理逻计划
        Physical Plans:物理逻辑计划,可能是多个,根据Cost Model生成最佳的物理逻辑化

以上是“SparkSQL指的是什么”这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注编程网行业资讯频道!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

SparkSQL指的是什么

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

SparkSQL指的是什么

这篇文章主要为大家展示了“SparkSQL指的是什么”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“SparkSQL指的是什么”这篇文章吧。一、 Spark SQL介绍
2023-06-02

大数据SparkSQl指的是什么呢

这期内容当中小编将会给大家带来有关大数据SparkSQl指的是什么呢,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做Dat
2023-06-02

sparksql优化的方法是什么

SparkSQL优化的方法有以下几种:数据分区:根据数据的特点和查询的需求,将数据划分成多个分区。这样可以提高查询的性能,因为每个分区可以并行处理。数据压缩:对数据进行压缩可以减少数据的存储空间,从而提高数据的读取速度。数据过滤:使用WHE
2023-10-22

vps指的是什么

这篇文章主要介绍“vps指的是什么”,在日常操作中,相信很多人在vps指的是什么问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”vps指的是什么”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!批量管理工具是来
2023-06-05

pixiv指的是什么

这篇文章主要介绍了pixiv指的是什么,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。pixiv是一个以插图、漫画和小说、艺术为中心的社交网络服务里的虚拟社区网站。pixiv创
2023-06-08

chatgpt指的是什么

今天小编给大家分享一下chatgpt指的是什么的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。ChatGPT是美国人工智能研究
2023-02-23

mysql指的是什么

这篇文章主要介绍了mysql指的是什么,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。PHP MySQL 简介:通过 PHP,您可以连接和操作数据库。 MySQL 是跟 PHP
2023-06-15

FastDb指的是什么

FastDB是一个高性能的嵌入式数据库系统,它专为嵌入式设备和边缘计算环境而设计。FastDB具有高速读写能力、低存储需求和占用较少内存等特点,可用于嵌入式系统、移动设备、物联网设备等场景。FastDB支持SQL查询语言和事务处理,并提供了
2023-10-24

PHPWAMP指的是什么

这篇文章将为大家详细讲解有关PHPWAMP指的是什么,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。使用方式:点击相关设置,直接打开IIS站点管理即可使用,如果你电脑没安装IIS,会自动快速安装(右键新标签
2023-06-15

python32指的是什么

这篇文章将为大家详细讲解有关python32指的是什么,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。Python主要用来做什么Python主要应用于:1、Web开发;2、数据科学研究;3、网络爬虫;4、嵌
2023-06-14

15PHP指的是什么

本文小编为大家详细介绍“15PHP指的是什么”,内容详细,步骤清晰,细节处理妥当,希望这篇“15PHP指的是什么”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。15PHP是指15菲律宾比索,这里的“php”是菲律宾
2023-07-04

index.html指的是什么

这篇文章主要介绍“index.html指的是什么”,在日常操作中,相信很多人在index.html指的是什么问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”index.html指的是什么”的疑惑有所帮助!接下来
2023-07-04

ibm指的是什么

这篇文章给大家分享的是有关ibm指的是什么的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。IBM是International Business Machines Corporation的缩写,即国际商用机器公司;I
2023-06-06

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录