我的编程空间,编程开发者的网络收藏夹
学习永远不晚

Hadoop的相关资料

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

Hadoop的相关资料

1 HDFS

1.1 概念

Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统

1.2 特点

- 高度容错性

- 硬件要求低

- 能提供高吞吐量的数据访问

1.3 文件系统命令行

1.3.1 获取帮助

hadoop fs -help

1.3.2 ls命令

hadoop fs -ls /
hadoop fs -ls -R /user

1.3.3 getconf命令

 hdfs getconf -help
hdfs getconf -namenodes

1.3.4 版本信息

hdfs version

注:由于与linux系统指令用法接近,详细请参阅文后的官方链接。

2 MapReduce

2.1 MapReduce的简介

MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。

2.2 工作原理

假若一个盘子中有黑豆、黄豆、绿豆、红豆,你现在想挑出其中的红豆。

MapReduce方法则是:

step1 找一个团队来处理(相当于一群服务器组成的集群)

step2 把豆子平均分配给团队里的每成员(相当于给群集中的服务器分配数据)

step3 让团队的成员开始挑选出其中的红豆(相当于群集的计算机并行地处理数据)

step4 把团队成员挑出来的豆子汇聚(相当于群集汇总并输出结果)

3 Hive

3.1 Hive的简介

3.1.1 概念

Hive是一个基于Hadoop的数据仓库平台。

3.1.2 Hive的作用

通过hive,我们可以方便地进行ETL的工作

hive定义了一个类似于SQL的查询语言

HQL能够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行

3.1.3 Hive项目的历史

Hive是Facebook 2008年8月刚开源的一个数据仓库框架,其系统目标与Pig有相似之处,但它有一些Pig目前还不支持的机制。

比如:更丰富的类型系统、更类似SQL的查询语言、Table/Partition元数据的持久化等。

4 impala

4.1 Impala的简介

Impala 是 Cloudera 在受到 Google 的 Dremel 启发下开发的实时交互 SQL 大数据查询工具,Impala 没有再使用缓慢的 Hive+MapReduce 批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由 Query Planner、Query Coordinator 和 Query Exec Engine 三部分组成),可以直接从 HDFS 或 HBase 中用 SELECT、JOIN 和统计函数查询数据,从而大大降低了延迟。

4.2 Impala的shell

4.2.1 启动shell

impala-shell

4.2.2 版本查询

select version();

4.3 库的操作

4.3.1 查询数据库

show databases;

4.3.2 创建数据库

create database testdb;
create database testdb2;

数据库存储路径:

hdfs dfs -ls /user/hive/warehouse/

4.3.3 使用数据库

use testdb;

4.3.4 显示当前数据库

select current_database();

4.3.5 删除数据库

drop database testdb;

4.4 表操

4.4.1 创建表

create table t1 (x int);
create table t3 (id int, word string);
create table city (id int,name string,countrycode string,district string,population int);

4.4.2 显示数据库中的表

show tables;
show tables in testdb;
show tables in testdb like 't*';

4.4.3 表结构描述

 describe city;

4.4.4 修改表名称

alter table t3 rename to t2;

4.4.5 插入数据

insert into t1 values (1),(3),(2),(4);
insert into t2 values (1, "one"), (3, "three"), (5, 'five');

4.4.6 数据查询

select min(x), max(x), sum(x), avg(x) from t1;
select word from t1 join t2 on (t1.x = t2.id);

5 sentry

5.1 开启权限

5.1.1 开启权限

Hive/Impala > Configuration > Service-Wide > Sentry Service > 选择“sentry”

5.1.2 指定认证服务器

Hive > Configuration > Service-Wide > Advanced > Server Name for Sentry Authorization(hive.sentry.server) > 填写sentry服务器名称或IP地址

5.1.3 设置特权用户

Hive > Configuration > Service-Wide > Security > Bypass Sentry Authorization Users(sentry.metastore.service.users) > 填写绕过的linux用户名(hive,impala,hue,hdfs等)

5.1.4 配置Hive的代理用户

HDFS > Configuration > Service-Wide > Proxy > Hive Proxy User Groups(hadoop.proxyuser.hive.groups) > 填写代理的linux用户名(hive,impala,hue,hdfs等)

5.1.5 重启服务

重启Hive/Impala的服务

5.2 授权

5.2.1 创建数据库用户和组

groupadd gp1
useradd user1 -G gp1
useradd user2 -G gp1

5.2.2 切换执行用

su - impala

5.2.3 创建数据库

切换到hive shell

hive

新建库

create database testdb;

退出hive shell

quit;

5.2.4 创建角色

切换到impala shell

impala-shell

创建角色

create role ro1;

5.2.5 确认创建的角色

show roles;

5.2.6 用户组和角色的关联

grant role ro1 to group gp1;

5.2.7 角色授权

grant all on database testdb to role ro1;

参阅资料:

==================================================

Docs:

----------------

http://hadoop.apache.org/docs/current/


Hadoop Common Guide:

---------------------

http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html

File System Shell Guide:

http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/FileSystemShell.html#Overview


MapReduce Common Guide:

------------------------

http://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapredCommands.html


Hive Docs

-------------------------

http://hive.apache.org

LanguageManual:

https://cwiki.apache.org/confluence/display/Hive/LanguageManual

GettingStarted:

https://cwiki.apache.org/confluence/display/Hive/GettingStarted

User Documentation:

https://cwiki.apache.org/confluence/display/Hive/Home#Home-UserDocumentation


Impala Docs

--------------------------

Impala SQL

http://www.cloudera.com/documentation/enterprise/5-6-x/topics/impala_langref_sql.html#langref_sql

Impala Tutorials

http://www.cloudera.com/documentation/enterprise/latest/topics/impala_tutorial.html

Impala Explore

http://www.cloudera.com/documentation/enterprise/latest/topics/impala_tutorial.html#tutorial_explore


Sentry Docs

----------------------------------

Overview of Impala Security

http://www.cloudera.com/documentation/enterprise/5-7-x/topics/impala_security.html#security

Enabling Sentry Authorization for Impala

http://www.cloudera.com/documentation/enterprise/5-7-x/topics/impala_authorization.html#authorization

Impala Grant

http://www.cloudera.com/documentation/enterprise/5-6-x/topics/impala_grant.html#grant

Hive Grant

http://www.cloudera.com/documentation/enterprise/5-6-x/topics/sg_hive_sql.html#concept_c2q_4qx_p4__col_level_auth_sentry

Disabling Hive CLI

http://www.cloudera.com/documentation/enterprise/5-6-x/topics/sg_sentry_overview.html


======================================

其他参考:

======================================

ETL的概念:

----------

http://www.cnblogs.com/elaron/archive/2012/04/09/2438372.html


Apache Sentry架构介绍

http://blog.javachen.com/2015/04/29/apache-sentry-architecture.html


启用Kerberos认证

http://www.cloudera.com/documentation/enterprise/latest/topics/cm_sg_intro_kerb.html#xd_583c10bfdbd326ba--6eed2fb8-14349d04bee--76dd


Impala的架构介绍

http://www.mutouxiaogui.cn/blog/?p=319


免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

Hadoop的相关资料

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

Hadoop相关概念有哪些

这篇文章主要讲解了“Hadoop相关概念有哪些”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Hadoop相关概念有哪些”吧!一、大数据的基本概念1.1、什么是大数据  大数据指的就是要处理的
2023-06-03

python的资料

【专题推荐】Python系列英文原版电子书http://down.51cto.com/zt/104python简明教程(CHM)http://down.51cto.com/data/49213Linux***的python编程之道【pdf】
2023-01-31

hadoop的RM与NM相关参数有哪些

本篇内容介绍了“hadoop的RM与NM相关参数有哪些”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成! 参数均需要在yarn-site.xml
2023-06-03

Golang函数库的学习资料和资源

Golang 函数库学习资料和资源Golang 标准库提供了广泛的函数和类型,对于构建强大的应用程序至关重要。本文将提供学习函数库的资料和资源,并包含实战案例以帮助你理解其用法。学习资料[Go 函数库官方文档](https://pkg.
Golang函数库的学习资料和资源
2024-04-18

济宁关于提交补办资格证书材料的通知

  济宁人事考试信息网近期发布了《关于提交补办资格证书材料的通知》,资格证书补办于每年5月下旬、11月下旬前到济宁市人事考试中心提交补办申请。  资格证书补办准备材料  1、《专业技术资格考试登记表》或《执(职)业资格考试登记表》复印件;  2、身份证复印件;  3、  登报声明原件作废的报纸原件;  4、&
济宁关于提交补办资格证书材料的通知
2024-04-18

搜集到的一些python资料

1,MOOC课程-Python语言程序设计(嵩天)http://www.icourse163.org/course/BIT-2680012,Python123网站(嵩天老师的教学网站):https://www.python123.io3,P
2023-01-31

Hadoop与MapReduce的关系

Hadoop是一个开源的分布式存储和计算框架,而MapReduce是Hadoop框架中的一个编程模型。在Hadoop中,MapReduce是用于处理大规模数据的计算模型,它将作业分成两个阶段:Map阶段和Reduce阶段。MapReduce
Hadoop与MapReduce的关系
2024-02-29

关于Hadoop的HDFS集群

这篇文章主要介绍了关于Hadoop的HDFS集群,Hadoop如何配置集群、不同的计算机里又应该有怎样的配置,这些问题是在学习中产生的。本章的配置中将会提供一个典型的示例,需要的朋友可以参考下
2023-05-19

如何查找SAP Cloud for Customer的资料

本篇文章为大家展示了如何查找SAP Cloud for Customer的资料,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。想学习C4C,还是得到SAP官网网站上查找资料。1. 登录https://
2023-06-04

Hadoop Yarn的资源调度器有哪些

这篇文章主要介绍“Hadoop Yarn的资源调度器有哪些”,在日常操作中,相信很多人在Hadoop Yarn的资源调度器有哪些问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Hadoop Yarn的资源调度器
2023-06-02

Treeview结构的表资料复制(Treeview Table COPY)

用ID/ParentID设计的Treeview结构表,若需要复制一份完整的Treeview, 要用逻辑代码递归实现,处理id/pid有点麻烦,性能也不好, 若可用简单的几句SQL实现,则可以提高性能 使用Postgresql 测试通过,并使用connectby
Treeview结构的表资料复制(Treeview Table COPY)
2015-12-01

编程热搜

目录