我的编程空间,编程开发者的网络收藏夹
学习永远不晚

云计算大数据学习路线课程大纲资料:hive入门操作

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

云计算大数据学习路线课程大纲资料:hive入门操作

一、hive产生背景

Apache Hive数据仓库软件可以使用SQL方便地阅读、编写和管理分布在分布式存储中的大型数据集。结构可以投射到已经存储的数据上。提供了一个命令行工具和JDBC驱动程序来将用户连接到Hive。

• 由Facebook开源,最初用于解决海量结构化的日志数据统计问题

• MapReduce编程的不便性

• HDFS上的文件缺少Schema(字段名,字段类型等)

二、Hive是什么

• 构建在Hadoop之上的数据仓库

• Hive定义了一种类SQL查询语言:HQL(类似SQL但不完全相同)

• 通常用于进行离线数据处理(采用MapReduce)

• 底层支持多种不同的执行引擎(Hive on MapReduce、Hive on Tez、Hive on Spark)

• 支持多种不同的压缩格式、存储格式以及自定义函数(压缩:GZIP、LZO、Snappy、BZIP2.. ; 存储:TextFile、SequenceFile、RCFile、ORC、Parquet ; UDF:自定义函数)

到底什么是Hive,我们先看看Hive官网Wiki是如何介绍Hive的(https://cwiki.apache.org/confluence/display/Hive/Home):

云计算大数据学习路线课程大纲资料:hive入门操作

Apache Hive Apache Hive™ 数据仓库软件为分布式存储的大数据集上的读、写、管理提供很大方便,同时还可以用SQL语法在大数据集上查询。

是一种易于对数据实现提取、转换、加载的工具(ETL)的工具。可以理解为数据清洗分析展现。 2、它有一种将大量格式化数据强加上结构的机制。 3、它可以分析处理直接存储在hdfs中的数据或者是别的数据存储系统中的数据,如hbase。 4、查询的执行经由mapreduce完成。 5、hive可以使用存储过程 6、通过Apache YARN和Apache Slider实现亚秒级的查询检索。

三、hive的安装

hive的单机安装(使用derby做元数据存储)

• 安装包准备

 将hive安装包 apache-hive-1.2.1-bin.tar.gz 上传到虚拟机/bigdata/下

 

云计算大数据学习路线课程大纲资料:hive入门操作

 JDK安装包 jdk-8u151-x64.gz

 集群的准备(linux1,linux2,linux3)

• hive的解压安装

 将上传的hive解压缩至虚拟机/app目录下

 tar -zxvf /app/apache-hive-1.2.1-bin.tar.gz -C /app

云计算大数据学习路线课程大纲资料:hive入门操作

 

 mv /app/apache-hive-1.2.1-bin/ /app/hive-1.2.1

云计算大数据学习路线课程大纲资料:hive入门操作

 

• 配置hive的配置文件

 查看配置文件内容

云计算大数据学习路线课程大纲资料:hive入门操作

 

 拷贝配置文件hive-env.sh.template为hive-env.sh

 cp /app/hive-1.2.1/conf/hive-env.sh.template /app/hive-1.2.1/conf/hive-env.sh

 

云计算大数据学习路线课程大纲资料:hive入门操作

 

 vim /app/hive-1.2.1/conf/hive-env.sh

 

云计算大数据学习路线课程大纲资料:hive入门操作

 

• 配置hive的环境变量

 vim /etc/profile

云计算大数据学习路线课程大纲资料:hive入门操作

 

 source /etc/profile

which hive

 

云计算大数据学习路线课程大纲资料:hive入门操作

 

• 启动hadoop集群

 

云计算大数据学习路线课程大纲资料:hive入门操作

 

• 启动hive服务

 hive

 

云计算大数据学习路线课程大纲资料:hive入门操作

 

• 查看数据库

 show databases;

 

云计算大数据学习路线课程大纲资料:hive入门操作

 

• 创建数据库

 create database myhive;

show databases;

 

云计算大数据学习路线课程大纲资料:hive入门操作

 

• 创建表

 create table student(id int,chinese string,math string,English string);

 

云计算大数据学习路线课程大纲资料:hive入门操作

 

• 加载数据并查询

 load data local inpath '/root/student.txt' into table student;

select * from student;

 

云计算大数据学习路线课程大纲资料:hive入门操作

 

hive的独立安装模式(使用mysql做元数据存储)

• 安装MySQL服务器端和MySQL客户端,并启动mysql服务。

• 在linux1上为Hive建立相应的MySQL账户,并赋予足够的权限

create user 'hive' identified by '123456';

GRANT ALL PRIVILEGES ON *.* TO hive@'%' IDENTIFIED BY '123456' with grant option;

GRANT ALL PRIVILEGES ON *.* TO hive@'localhost' IDENTIFIED BY '123456' with grant option;

flush privileges 

云计算大数据学习路线课程大纲资料:hive入门操作

 

查看是否成功

云计算大数据学习路线课程大纲资料:hive入门操作

 

• 在内嵌模式下继续配置hive:hive-site.xml,hive-env.sh

 配置hive-env.sh

 

云计算大数据学习路线课程大纲资料:hive入门操作

 

 配置hive-site.xml,拷贝/app/hive-1.2.1/conf下的hive-default.xml文件为hive-site.xml

 

 cp /app/hive-1.2.1/conf/hive-default.xml.template /app/hive-1.2.1/conf/hive-site.xml

 

 vim /app/hive-1.2.1/conf/hive-site.xml

 

• 拷贝数据驱动jar包到指定目录/app/hive-1.2.1/lib/下。没有驱动包会报错

 

• 使用命令行的方式启动hive服务,然后查看数据库,创建数据库名为heihei,查看集群web页面

 

 查看集群web页面,可以看见在hdfs上生成了对应heihei数据库的文件目录

 

• 使用beeline访问hive

 exit命令退出刚才的hive服务,在linux1上修改hadoop 配置文件 etc/hadoop/core-site.xml,加入如下配置项, 通过httpfs接口匿名的方式登录到hdfs文件系统。然后重新启动集群。

 <property>

    <name>hadoop.proxyuser.root.hosts</name>

    <value>*</value>

</property>

<property>

    <name>hadoop.proxyuser.root.groups</name>

    <value>*</value>

</property>

 使用命令hive --service hiveserver2 & 后台启动hive服务

 hive --service hiveserver2 &

 

 克隆窗口作为客户端连接,执行beeline脚本

 

 连接服务端,这种方式使用了thrift服务,10000为默认的连接端口号

 !connect jdbc:hive2://linux1:10000

 

 验证连接的是不是我们刚才用命令行方式访问的hive服务

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

云计算大数据学习路线课程大纲资料:hive入门操作

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

云计算大数据学习路线课程大纲资料:hive入门操作

一、hive产生背景Apache Hive数据仓库软件可以使用SQL方便地阅读、编写和管理分布在分布式存储中的大型数据集。结构可以投射到已经存储的数据上。提供了一个命令行工具和JDBC驱动程序来将用户连接到Hive。• 由Facebook开
2023-06-04

云计算大数据学习路线课程大纲资料:hive内部函数

今天给大家分享一些云计算大数据学习路线课程大纲资料,这篇文章是关于hive内部函数的一些学习笔记资料,希望能给大家一些帮助:hive内部函数1、取随机数函数:rand()语法: rand(),rand(int seed) 返回值: doub
2023-06-04

云计算学习路线课程大纲资料:作业控制 jobs

今天给大家分享一些云计算学习路线课程大纲资料,这篇文章是关于作业控制 jobs的一些学习笔记资料,希望能给大家一些帮助:作业控制是一个命令行功能,允许一个shell 实例来运行和管理多个命令。如果没有作业控制,父进程fork()一个子进程后
2023-06-04

云计算学习路线课程大纲资料:参数传递 Xargs

今天给大家分享一些云计算学习路线课程大纲资料,这篇文章是关于参数传递 Xargs的一些学习笔记资料,希望能给大家一些帮助:===========================================================
2023-06-04

云计算学习路线课程大纲资料:文件属性 chattr

给大家分享一些云计算学习路线课程大纲资料,这篇文章是关于文件属性 chattr的一些资料,希望能给大家一些帮助:文件权限管理之: 文件属性注:设置文件属性(权限),针对所有用户,包括root[root@tianyun ~]# touch f
2023-06-04

云计算学习路线课程大纲资料:使用信号控制进程

今天给大家分享一些云计算学习路线课程大纲资料,这篇文章是关于使用信号控制进程的一些学习笔记资料,希望能给大家一些帮助:=============================================================
2023-06-04

云计算学习路线教程大纲课件:EXT2/3/4文件系统

云计算学习路线教程大纲课件:EXT2/3/4文件系统:索引式文件系统====================================================================================Ex
2023-06-04

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录