我的编程空间,编程开发者的网络收藏夹
学习永远不晚

hive函数有什么用

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

hive函数有什么用

这篇文章将为大家详细讲解有关hive函数有什么用,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。

首先我们要知道hive到底是做什么的。下面这几段文字很好的描述了hive的特性: 

 1.hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

  2.Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。

  要理解hive,必须先理解hadoop和mapreduce,如果有不熟悉的童鞋,可以百度一下。

  使用hive的命令行接口,感觉很像操作关系数据库,但是hive和关系数据库还是有很大的不同,下面我就比较下hive与关系数据库的区别,具体如下:

1.hive和关系数据库存储文件的系统不同,hive使用的是hadoop的HDFS(hadoop的分布式文件系统),关系数据库则是服务器本地的文件系统;

2.hive使用的计算模型是mapreduce,而关系数据库则是自己设计的计算模型;

3.关系数据库都是为实时查询的业务进行设计的,而hive则是为海量数据做数据挖掘设计的,实时性很差;实时性的区别导致hive的应用场景和关系数据库有很大的不同;

4.Hive很容易扩展自己的存储能力和计算能力,这个是继承hadoop的,而关系数据库在这个方面要比数据库差很多。

  以上都是从宏观的角度比较hive和关系数据库的区别,hive和关系数据库的异同还有很多,我在文章的后面会一一描述。

  下面我来讲讲hive的技术架构,大家先看下面的架构图: 

hive函数有什么用

  由上图可知,hadoop和mapreduce是hive架构的根基。Hive架构包括如下组件:CLI(command line interface)、JDBC/ODBC、Thrift Server、WEB GUI、metastore和Driver(Complier、Optimizer和Executor),这些组件我可以分为两大类:服务端组件和客户端组件。

   首先讲讲服务端组件:

  Driver组件:该组件包括Complier、Optimizer和Executor,它的作用是将我们写的HiveQL(类SQL)语句进行解析、编译优化,生成执行计划,然后调用底层的mapreduce计算框架。

  Metastore组件:元数据服务组件,这个组件存储hive的元数据,hive的元数据存储在关系数据库里,hive支持的关系数据库有derby、mysql。元数据对于hive十分重要,因此hive支持把metastore服务独立出来,安装到远程的服务器集群里,从而解耦hive服务和metastore服务,保证hive运行的健壮性,这个方面的知识,我会在后面的metastore小节里做详细的讲解。

  Thrift服务:thrift是facebook开发的一个软件框架,它用来进行可扩展且跨语言的服务的开发,hive集成了该服务,能让不同的编程语言调用hive的接口。

  客户端组件:

  CLI:command line interface,命令行接口。

  Thrift客户端:上面的架构图里没有写上Thrift客户端,但是hive架构的许多客户端接口是建立在thrift客户端之上,包括JDBC和ODBC接口。

  WEBGUI:hive客户端提供了一种通过网页的方式访问hive所提供的服务。这个接口对应hive的hwi组件(hive web interface),使用前要启动hwi服务。

  下面我着重讲讲metastore组件,具体如下:

  Hive的metastore组件是hive元数据集中存放地。Metastore组件包括两个部分:metastore服务和后台数据的存储。后台数据存储的介质就是关系数据库,例如hive默认的嵌入式磁盘数据库derby,还有mysql数据库。Metastore服务是建立在后台数据存储介质之上,并且可以和hive服务进行交互的服务组件,默认情况下,metastore服务和hive服务是安装在一起的,运行在同一个进程当中。我也可以把metastore服务从hive服务里剥离出来,metastore独立安装在一个集群里,hive远程调用metastore服务,这样我们可以把元数据这一层放到防火墙之后,客户端访问hive服务,就可以连接到元数据这一层,从而提供了更好的管理性和安全保障。使用远程的metastore服务,可以让metastore服务和hive服务运行在不同的进程里,这样也保证了hive的稳定性,提升了hive服务的效率。

  Hive的执行流程如下图所示:

hive函数有什么用

图描述的很清晰了,我这里就不在累述了。

下面我给大家展示一个简单的例子,看看hive是怎么操作的。

首先我们创建一个普通的文本文件,里面只有一行数据,该行也只存储一个字符串,命令如下:

echo ‘sharpxiajun' > /home/hadoop/test.txt

然后我们建一张hive的表:

hive –e “create table test (value string);

接下来加载数据:

Load data local inpath ‘home/hadoop/test.txt' overwrite into table test

最后我们查询下表:

hive –e ‘select * from test';

  大家看到了吧,hive十分简单,很好入门,操作和sql很像,下面我就要深入分析下hive与关系数据库的区别,这部分可能有些人看的不是很明白,但是很有必要提前提出,以后我的文章里将进一步讲述hive,那时不太明白的童鞋在看看这部分,很多问题就会清晰很多,具体如下:

1.关系数据库里,表的加载模式是在数据加载时候强制确定的(表的加载模式是指数据库存储数据的文件格式),如果加载数据时候发现加载的数据不符合模式,关系数据库则会拒绝加载数据,这个就叫“写时模式”,写时模式会在数据加载时候对数据模式进行检查校验的操作。Hive在加载数据时候和关系数据库不同,hive在加载数据时候不会对数据进行检查,也不会更改被加载的数据文件,而检查数据格式的操作是在查询操作时候执行,这种模式叫“读时模式”。在实际应用中,写时模式在加载数据时候会对列进行索引,对数据进行压缩,因此加载数据的速度很慢,但是当数据加载好了,我们去查询数据的时候,速度很快。但是当我们的数据是非结构化,存储模式也是未知时候,关系数据操作这种场景就麻烦多了,这时候hive就会发挥它的优势。

2.关系数据库一个重要的特点是可以对某一行或某些行的数据进行更新、删除操作,hive不支持对某个具体行的操作,hive对数据的操作只支持覆盖原数据和追加数据。Hive也不支持事务和索引。更新、事务和索引都是关系数据库的特征,这些hive都不支持,也不打算支持,原因是hive的设计是海量数据进行处理,全数据的扫描时常态,针对某些具体数据进行操作的效率是很差的,对于更新操作,hive是通过查询将原表的数据进行转化最后存储在新表里,这和传统数据库的更新操作有很大不同。

3.Hive也可以在hadoop做实时查询上做一份自己的贡献,那就是和hbase集成,hbase可以进行快速查询,但是hbase不支持类SQL的语句,那么此时hive可以给hbase提供sql语法解析的外壳,可以用类sql语句操作hbase数据库

关于“hive函数有什么用”这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,使各位可以学到更多知识,如果觉得文章不错,请把它分享出去让更多的人看到。

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

hive函数有什么用

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

hive内置函数有什么用

小编给大家分享一下hive内置函数有什么用,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!hive内置函数:1、用户自定义函数对数据进行处理;2、用来解决输入一行输
2023-06-06

hive中explode函数的用法是什么

在Hive中,explode函数用于将数组或者map类型的列拆分成多行数据。例如,如果某一列中包含一个数组,使用explode函数可以将这个数组中的每个元素分解成一行数据。例如,假设有一个表t,其中包含一个名为col的数组列,可以使用ex
hive中explode函数的用法是什么
2024-03-05

hive常用内部函数有哪些

这篇文章主要介绍了hive常用内部函数有哪些,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。1、随机函数rand()格式:rand([int seed])返回:double--
2023-06-02

大数据开发中hive有什么用

这篇文章给大家分享的是有关大数据开发中hive有什么用的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。引语大数据开发之路漫漫其修远兮,吾将上下而求索。很多入门大数据的小伙伴,可能第一个接触到的,就是一只可爱的“小象
2023-06-02

Hive sql常用函数

1.获取当前日期 如2020-13-22current_date() 或者current_date获取当前时间:from_unixtime(unix_timestamp()) 返回格式:yyyy-MM-dd HH:mm:ss      :current_tim
Hive sql常用函数
2016-12-22

hive替换函数的使用方法是什么

在Hive中,可以使用REPLACE函数来替换字符串中的指定子字符串。REPLACE函数的语法如下:REPLACE(string, search_string, replacement_string)其中,string是要进行替换操作的字
hive替换函数的使用方法是什么
2024-03-12

hive的sum函数怎么使用

在Hive中,可以使用SUM函数对某一列中的值进行求和操作。具体使用方式如下:SELECT SUM(column_name) FROM table_name;其中,column_name是要进行求和操作的列名,table_name是包含该
hive的sum函数怎么使用
2024-03-05

hive的collect_set函数怎么使用

Hive中的collect_set函数用于返回指定列的唯一值集合。其语法如下:SELECT collect_set(column_name)FROM table_nameWHERE conditions;其中,column_name是
hive的collect_set函数怎么使用
2024-04-08

hive中decode函数怎么使用

在Hive中,`decode`函数用于根据给定的条件和对应的值,将一个列的值转换为另一个值。`decode`函数的语法如下:```DECODE(col, condition1, value1, condition2, value2, ...
2023-08-11

hive函数regexp_extract怎么样

这篇文章将为大家详细讲解有关hive函数regexp_extract怎么样,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。函数描述:regexp_extract(str, regexp[, idx]) -
2023-06-03

Hive内部函数中聚合函数和分组函数有哪些

这篇文章给大家分享的是有关Hive内部函数中聚合函数和分组函数有哪些的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。1. 常用的聚合函数: max 最大值 min
2023-06-02

hive常见自定义函数有哪些

这篇文章主要介绍了hive常见自定义函数有哪些,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。1.1 为什么需要自定义函数hive的内置函数满足不了所有的业务需求。hive提供
2023-06-02

hive与hadoop有什么联系

这篇文章主要讲解了“hive与hadoop有什么联系”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“hive与hadoop有什么联系”吧!解析:1、提交sql 交给驱动2、驱动编译:解析相关的
2023-06-03

PHP file_get_contents()函数有什么用

PHP file_get_contents()函数用于将文件的内容读取到一个字符串中。它可以从本地文件系统、网络URL、流数据等读取文件内容。这个函数是一个简单而强大的文件读取函数,可以用于读取文本文件、JSON数据、XML数据等。下面是一
2023-10-10

MySQL FROM_UNIXTIME() 函数有什么用?

MySQL FROM_UNIXTIME() 函数用于从 Unix 时间戳版本返回日期/日期时间。返回值的格式可以是“YYYY-MM-DD HH:MM:SS”或“YYYYMMDDHHMMSS.uuuuuu”,具体取决于函数的上下文,即上下文是
2023-10-22

MySQL FROM_UNIXTIME() 函数有什么用

MySQL的FROM_UNIXTIME()函数用于将Unix时间戳转换为日期和时间格式。Unix时间戳是从1970年1月1日00:00:00 UTC到指定时间的秒数。FROM_UNIXTIME()函数可以将这个秒数转换为MySQL支持的日期
2023-10-20

mysql last_insert_id函数有什么用

MySQL的last_insert_id()函数用于返回最近一次插入操作所生成的自增长主键值。通常在插入数据后,可以使用该函数获取自增长主键值,以便在需要时进行进一步的操作或记录。这个函数可以帮助开发人员快速获取最新插入记录的主键值,而不用
mysql last_insert_id函数有什么用
2024-03-07

sql timestampdiff函数有什么用

TIMESTAMPDIFF函数用于计算两个日期或时间的差值。它可以计算两个日期、时间或日期时间之间的差值,并以指定的单位返回结果,如年、月、日、小时、分钟等。这个函数在SQL中非常有用,可以帮助用户计算日期和时间之间的差异,从而进行更复杂的
sql timestampdiff函数有什么用
2024-04-09

编程热搜

目录