我的编程空间,编程开发者的网络收藏夹
学习永远不晚

如何安装Hadoop单机版和全分布式

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

如何安装Hadoop单机版和全分布式

这篇文章主要介绍“如何安装Hadoop单机版和全分布式”,在日常操作中,相信很多人在如何安装Hadoop单机版和全分布式问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”如何安装Hadoop单机版和全分布式”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!

Hadoop,分布式的大数据存储和计算, 免费开源!有Linux基础的同学安装起来比较顺风顺水,写几个配置文件就可以启动了,本人菜鸟,所以写的比较详细。为了方便,本人使用三台的虚拟机系统是Ubuntu-12。设置虚拟机的网络连接使用桥接方式,这样在一个局域网方便调试。单机和集群安装相差不多,先说单机然后补充集群的几点配置。

第一步,先安装工具软件
编辑器:vim

代码如下:

sudo apt-get install vim


ssh服务器: openssh,先安装ssh是为了使用远程终端工具(putty或xshell等),这样管理虚拟机就方便多了。

代码如下:

sudo apt-get install openssh-server

第二步,一些基本设置
最好给虚拟机设置固定IP

代码如下:

sudo vim /etc/network/interfaces
加入以下内容:
iface eth0 inet static
address 192.168.0.211
gateway 192.168.0.222
netmask 255.255.255.0


修改机器名,我这里指定的名字是:hadoopmaster ,以后用它做namenode

代码如下:

sudo vim /etc/hostname


修改hosts,方便应对IP变更,也方便记忆和识别

代码如下:

sudo vim /etc/hosts
加入内容:
192.168.0.211   hadoopmaster

第三步,添加一个专门为hadoop使用的用户

代码如下:

sudo addgroup hadoop
sudo adduser -ingroup hadoop hadoop


设置hadoop用户的sudo权限

代码如下:

sudo vim /etc/sudoers


在 root ALL=(ALL:ALL)
下面加一行 hadoop ALL=(ALL:ALL)
切换到hadoop用户 su hadoop

第四步,解压安装JDK,HADOOP,PIG(顺便把PIG也安装了)

代码如下:

sudo tar zxvf ./jdk-7-linux-i586.tar.gz  -C /usr/local/jvm/
sudo tar zxvf ./hadoop-1.0.4.tar.gz -C /usr/local/hadoop
sudo tar zxvf ./pig-0.11.1.tar.gz -C /usr/local/pig


修改解压后的目录名并且最终路径为:

代码如下:

jvm: /usr/local/jvm/jdk7
hadoop: /usr/local/hadoop/hadoop (注意:hadoop所有节点的安装路径必须相同)
pig: /usr/local/pig


设置目录所属用户

代码如下:

sudo chown -R hadoop:hadoop jdk7
sudo chown -R hadoop:hadoop hadoop
sudo chown -R hadoop:hadoop pig


设置环境变量, 编辑~/.bashrc 或 ~/.profile 文件加入

代码如下:

export JAVA_HOME=/usr/local/jvm/jdk7
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH
export HADOOP_INSTALL=/usr/local/hadoop/hadoop
export PATH=${HADOOP_INSTALL}/bin:$PATH
source ~/.profile 生效

第五步,.ssh无密码登录本机,也就是说ssh到本机不需要密码

代码如下:

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys


如果不起作用请修改权限:

代码如下:

chmod 700 ~/.ssh
chmod 600 ~/.ssh/authorized_keys 


authorized_keys相当于白名单,id_rsa.pub是公钥,凡是在authorized_keys有请求者机器的公钥时ssh服务器直接放行,无需密码!

第六步,Hadoop必要设置
所有设置文件在hadoop/conf目录下
1、hadoop-env.sh 找到 #export JAVA_HOME 去掉注释#,并设置实际jdk路径
2、core-site.xml

代码如下:

<property>
<name>fs.default.name</name>
<value>hdfs://hadoopmaster:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop/tmp</value>
</property>


3、mapred-site.xml

代码如下:

<property>
<name>mapred.job.tracker</name>
<value>hadoopmaster:9001</value>
</property>


4、hdfs-site.xml

代码如下:

<property>
<name>dfs.name.dir</name>
<value>/usr/local/hadoop/datalog1,/usr/local/hadoop/datalog2</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/usr/local/hadoop/data1,/usr/local/hadoop/data2</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>


5、文件masters 和 文件slaves, 单机写 localhost 即可

第七步,启动Hadoop
格式化Hadoop的HDFS文件系统

代码如下:

hadoop namenode -format


执行Hadoop启动脚本,如果是集群的话在master上执行,其他slave节点Hadoop会通过ssh执行:

代码如下:

start-all.sh


执行命令 jps 如果显示有: Namenode,SecondaryNameNode,TaskTracker,DataNode,JobTracker等五个进程表示启动成功了!

第八步,集群的配置
所有其他单机的安装跟上面相同,下面只增加集群的额外配置!
最好先配置好一台单机,其他的可以通过scp直接复制,路径也最好相同包括java!
本例的主机列表(设置hosts):
如何安装Hadoop单机版和全分布式

设置ssh,让master能够不要密码登录到其他slaves上,主要用来启动slaves

代码如下:

复制hadoopmaster下id_rsa.pub到子结点:
scp ./ssh/id_rsa.pub hadoopnode1:/home/hadoop/.ssh/id_master
scp ./ssh/id_rsa.pub hadoopnode2:/home/hadoop/.ssh/id_master

分别在子结点~/.ssh/目录下执行:
cat ./id_master >> authorized_keys

masters文件,添加作为secondarynamenode或namenode的主机名,一行一个。
集群写master名如:hadoopmaster
slaves文件,添加作为slave的主机名,一行一个。
集群写子结点名:如 hadoopnode1、hadoopnode2

Hadoop管理
hadoop启动后会启动一个任务管理服务和一个文件系统管理服务,是两个基于JETTY的WEB服务,所以可在线通过WEB的方式查看运行情况。
任务管理服务运行在50030端口,如 http://127.0.0.1:50030文件系统管理服务运行在50070端口。

参数说明:
1、dfs.name.dir:是NameNode持久存储名字空间及事务日志的本地文件系统路径。 当这个值是一个逗号分割的目录列表时,nametable数据将会被复制到所有目录中做冗余备份。
2、dfs.data.dir:是DataNode存放块数据的本地文件系统路径,逗号分割的列表。 当这个值是逗号分割的目录列表时,数据将被存储在所有目录下,通常分布在不同设备上。
3、dfs.replication:是数据需要备份的数量,默认是3,如果此数大于集群的机器数会出错。

到此,关于“如何安装Hadoop单机版和全分布式”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注编程网网站,小编会继续努力为大家带来更多实用的文章!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

如何安装Hadoop单机版和全分布式

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

如何安装Hadoop单机版和全分布式

这篇文章主要介绍“如何安装Hadoop单机版和全分布式”,在日常操作中,相信很多人在如何安装Hadoop单机版和全分布式问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”如何安装Hadoop单机版和全分布式”的疑
2023-06-09

Hadoop单机版和全分布式(集群)安装

Hadoop,分布式的大数据存储和计算, 免费开源!有Linux基础的同学安装起来比较顺风顺水,写几个配置文件就可以启动了,本人菜鸟,所以写的比较详细。为了方便,本人使用三台的虚拟机系统是Ubuntu-12。设置虚拟机的网络连接使用桥接方式
2022-06-04

CentOS 6.4如何安装Hadoop-2.5.1完全分布式集群

这篇文章主要介绍了CentOS 6.4如何安装Hadoop-2.5.1完全分布式集群,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。环境介绍:在两台装有CentOS 6.4(3
2023-06-03

Linux平台HBase单机版如何安装和配置

这篇文章主要介绍了Linux平台HBase单机版如何安装和配置,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。下载HBase for linux平台的tar包并解压缩,本例为h
2023-06-03

分布式存储ceph如何安装

这篇文章主要为大家展示了“分布式存储ceph如何安装”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“分布式存储ceph如何安装”这篇文章吧。1 实验环境2 快速安装ceph2.1 准备工作* 各个
2023-06-04

CentOS 7如何搭建Hadoop 2.7.3完全分布式集群环境

这篇文章将为大家详细讲解有关CentOS 7如何搭建Hadoop 2.7.3完全分布式集群环境,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。(一)软件准备1,hadoop-2.7.3.tar.gz(包)2
2023-06-03

如何在Linux安装使用分布式版本控制系统GitHub

本篇内容主要讲解“如何在Linux安装使用分布式版本控制系统GitHub”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“如何在Linux安装使用分布式版本控制系统GitHub”吧!  1. 在网站
2023-06-13

如何使用Centos7系统搭建Hadoop-3.1.4完全分布式集群

本篇内容主要讲解“如何使用Centos7系统搭建Hadoop-3.1.4完全分布式集群”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“如何使用Centos7系统搭建Hadoop-3.1.4完全分布
2023-06-15

分布式存储如何保证数据安全

分布式存储系统使用数据复制、纠删码和副本放置策略来保证数据可用性和容错能力。数据加密和密钥管理确保数据的机密性。快照、版本控制和安全协议保护数据免遭未经授权的访问和修改。监控、告警和安全审计帮助识别和应对安全风险。人员安全和最佳实践进一步加强数据保护,防止各种威胁。
分布式存储如何保证数据安全
2024-04-11

分布式存储如何保证数据安全

分布式存储系统通常使用多个存储节点来存储数据,因此在保证数据安全方面有以下几个关键因素:1. 数据冗余:分布式存储系统会将数据复制到多个节点上,以保证数据的冗余性。这样即使某个节点发生故障,系统仍然可以从其他节点获取数据,并且不会丢失数据。
2023-09-20

如何在PHP微服务中实现分布式安全和防护功能

随着互联网的发展,微服务架构逐渐成为了企业开发的主流架构模式。而对于微服务架构而言,保护分布式系统的安全性是至关重要的。本文将介绍如何在PHP微服务中实现分布式安全和防护功能,并提供具体的代码示例。一、使用JWT进行身份验证在微服务架构中,
2023-10-21

单例模式在PHP分布式系统中的应用场景和线程安全流程

引言:随着互联网的迅猛发展,分布式系统已成为现代软件开发的热门话题。而在分布式系统中,线程安全一直是一个重要的问题。在PHP开发中,单例模式是一种常用的设计模式,它可以有效地解决资源共享和线程安全的问题。本文将重点讨论单例模式在PHP分布式
2023-10-21

如何在Centos7系统安装部署Pinpoint分布式监控

这篇文章主要讲解了“如何在Centos7系统安装部署Pinpoint分布式监控”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“如何在Centos7系统安装部署Pinpoint分布式监控”吧!概
2023-06-17

Golang技术在分布式系统中如何确保安全性?

go 语言在分布式系统中确保安全的技术主要包括:认证和授权(tls 认证、rbac)、数据加密(aes-256、sha-256)、令牌校验(jwt)、安全中间件(跨域请求处理、请求速率限制、输入验证)。例如,可使用 tls 进行 api 认
Golang技术在分布式系统中如何确保安全性?
2024-05-07

Elasticsearch分布式搜索中的安全与加密通信(如何保障Elasticsearch分布式搜索的安全并进行加密通信?)

本文介绍了保障Elasticsearch分布式搜索系统安全的最佳实践和加密通信方法。通过实施认证、授权、网络安全、数据加密、审计和备份,可以有效防范数据泄露和未经授权访问。加密通信采用TLS/SSL、IPSecVPN和SSH隧道等方法,确保数据在传输过程中得到保护。具体的实施步骤包含身份验证、防火墙配置、数据分片加密、日志记录、备份和TLS/SSL部署等。通过这些措施,Elasticsearch分布式搜索系统的安全性得到显著增强,降低了数据泄露和未经授权访问的风险。
Elasticsearch分布式搜索中的安全与加密通信(如何保障Elasticsearch分布式搜索的安全并进行加密通信?)
2024-04-02

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录