我的编程空间,编程开发者的网络收藏夹
学习永远不晚

HDFS免重启挂载新磁盘

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

HDFS免重启挂载新磁盘

在生产环境中,集群节点磁盘大小不同,其使用率也会不同,HDFS虽有均衡策略,但也会有数据不平衡的情况,有些节点磁盘就会被打满,然后这个节点就不健康了(Unhealthy Nodes),Yarn的磁盘阈值检查(yarn.nodemanager.disk-health-checker.min-healthy-disks),默认是90%,超过这个值就会不健康,集群有个节点不健康,就会导致任务运行缓慢,之后任务再挤压,Yarn资源被集中占用,最终影响上层服务。

问题

  • 磁盘空间不足,待扩容,可动态增删磁盘

  • yarn资源不足,待优化,可动态调整

本篇内容只添加新磁盘,yarn资源优化我们在另一篇文章再专门详解。

官方说明

官方文档:DataNode Hot Swap Drive

DataNode Hot Swap Drive

Datanode supports hot swappable drives. The user can add or replace HDFS data volumes without shutting down the DataNode. The following briefly describes the typical hot swapping drive procedure:

  • If there are new storage directories, the user should format them and mount them appropriately.

  • The user updates the DataNode configuration dfs.datanode.data.dir to reflect the data volume directories that will be actively in use.

  • The user runs dfsadmin -reconfig datanode HOST:PORT start to start the reconfiguration process. The user can use dfsadmin -reconfig datanode HOST:PORT status to query the running status of the reconfiguration task.

  • Once the reconfiguration task has completed, the user can safely umount the removed data volume directories and physically remove the disks.

经过谷歌翻译如下:

DataNode 热插拔驱动器

Datanode 支持热插拔驱动器。用户可以在不关闭 DataNode 的情况下添加或替换 HDFS 数据卷。下面简要介绍典型的热插拔驱动器过程:

  • 如果有新的存储目录,用户应该格式化它们并适当地挂载它们。

  • 用户更新 DataNode 配置dfs.datanode.data.dir 以反映将被积极使用的数据卷目录。

  • 用户运行dfsadmin -reconfig datanode HOST:PORT start来启动重新配置过程。用户可以使用 dfsadmin -reconfig datanode HOST:PORT status 查询重配置任务的运行状态。

  • 重新配置任务完成后,用户可以安全地卸载已移除的数据卷目录并物理移除磁盘。

我们先说添加新的磁盘,大意就是不需要重启任何节点,在需要添加磁盘的节点上,添加好磁盘,这个需要运维操作,就是挂载一个新目录,文档中是说要配置DataNode的目录,这里我们建议加上NameNode的目录dfs.namenode.name.dir,然后再执行一个使配置生效的命令,最后查看配置状态。

具体操作

这里假设已有集群,需要加磁盘的节点为node2。运维也已经帮我们挂载好磁盘,新磁盘目录为/data2

第一步:新增目录

在node2上添加新目录,数据目录和元数据目录

mkdir -p /data2/soft/hadoop/tmp/dfs/data

mkdir -p /data2/soft/hadoop/tmp/dfs/name

第二步:修改配置

修改节点node2的配置文件hdfs-site.xml,主要两个属性

修改前

<!--指定hdfs中namenode的存储位置-->
<property>
    <name>dfs.namenode.name.dir</name>
    <value>/data/soft/hadoop/tmp/dfs/name</value>
</property>
<!--指定hdfs中datanode的存储位置-->
<property>
    <name>dfs.datanode.data.dir</name>
    <value>/data/soft/hadoop/tmp/dfs/data</value>
</property>

修改后

<!--指定hdfs中namenode的存储位置-->
<property>
    <name>dfs.namenode.name.dir</name>
    <value>/data/soft/hadoop/tmp/dfs/name,/data2/soft/hadoop/tmp/dfs/name</value>
</property>
<!--指定hdfs中datanode的存储位置-->
<property>
    <name>dfs.datanode.data.dir</name>
    <value>/data/soft/hadoop/tmp/dfs/data,/data2/soft/hadoop/tmp/dfs/data</value>
</property>

第三步:使配置生效

重新配置DataNode的配置,使配置生效。

hdfs dfsadmin -reconfig datanode node2:50020 start

hdfs dfsadmin -reconfig datanode node2:50020 status

第四步:平衡数据

HDFS数据本身并不总是均匀的放置在DataNode中,在添加新磁盘后,我们需要重新平衡下数据,HDFS为我们提供了一个工具,可以分析数据块放的位置和跨 DataNode 重新平衡数据:balancer

官方文档:hdfs balancer

hdfs balancer
    [-threshold <threshold>]:磁盘容量百分百,判断集群是否平衡的目标参数,每一个 datanode 存储使用率和集群总存储使用率的差值都应该小于这个阀值,越小越平衡,默认10,越大平衡越快。
    [-policy <policy>]:datanode(默认):如果每个数据节点都是平衡的,则集群是平衡的。blockpool:如果每个数据节点中的每个块池都是平衡的,则集群是平衡的。
    [-exclude [-f <hosts-file> | <comma-separated list of hosts>]]:将指定的数据节点排除在平衡器的平衡之外。
    [-include [-f <hosts-file> | <comma-separated list of hosts>]]:仅包括要由平衡器平衡的指定数据节点。
    [-idleiterations <idleiterations>]:rebalanecing server启动的线程数,默认5。

平衡前操作

在平衡时受带宽影响,每个数据节点每秒使用的最大字节数是有限的,所以我们先临时设置这个值,此值会覆盖hdfs-site.xml中dfs.datanode.balance.bandwidthPerSec的值,默认是1M,本操作命令不会持久,命令如下:

hdfs dfsadmin -setBalancerBandwidth 104857600

其他值:1024*1024=1M(1048576),52428800=50M,104857600=100M

开始平衡

本次执行平衡命令,磁盘平衡目标数为20 nohup hdfs balancer -threshold 20 > balancer.log &

其他平衡命令

平衡所有节点 nohup hdfs balancer > balancer.log &

平衡指定节点,磁盘平衡目标数为10 nohup hdfs balancer -include node7,node9,node10,node11 -threshold 10 > balancer.log &

平衡指定节点,磁盘平衡目标数,启动线程数为10 nohup hdfs balancer -include node7,node9,node10,node11 -threshold 10 -idleiterations 10 > balancer.log &

注(可选):一般在平衡时,可以先停止存储比较高的节点上的NodeManager,这样在该节点上就不会受本地NodeManager落数据到本地,使得本地存储迅速增加的影响。

yarn-daemon.sh stop nodemanager yarn-daemon.sh start nodemanager

更多关于HDFS免重启挂载新磁盘的文章请查看下面的相关链接

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

HDFS免重启挂载新磁盘

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

HDFS免重启挂载新磁盘的方法

本篇内容主要讲解“HDFS免重启挂载新磁盘的方法”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“HDFS免重启挂载新磁盘的方法”吧!在生产环境中,集群节点磁盘大小不同,其使用率也会不同,HDFS虽
2023-06-29

linux重启之后挂载的磁盘没了如何解决

当Linux重启后挂载的磁盘消失时,可以按照以下步骤来解决问题:1. 检查磁盘是否存在:运行`lsblk`或`fdisk -l`命令来查看系统中是否存在该磁盘。2. 检查磁盘是否被正确挂载:运行`mount`命令来查看磁盘是否被正确挂载到指
2023-09-15

Linux云服务器怎么挂载新磁盘

Linux云服务器挂载新磁盘挂载新磁盘可扩展Linux云服务器的存储容量。步骤如下:创建新磁盘格式化磁盘将磁盘附加到实例挂载磁盘验证挂载配置自动挂载、优化性能和监控磁盘使用情况,以提升效率和可靠性。
Linux云服务器怎么挂载新磁盘
2024-04-12

ubuntu挂载磁盘后启动报错怎么解决

如果在Ubuntu启动时挂载的磁盘出现错误,可以尝试以下步骤来解决问题:1. 重启计算机,并进入Grub菜单。在启动时按住Shift键,直到出现Grub菜单。2. 在Grub菜单中选择“恢复模式”或“修复模式”,然后按下Enter键。3.
2023-09-06

Linux云服务器挂载新磁盘的方法步骤

背景公司内新增一台服务器, 挂载一个2T的硬盘, ssh登陆后发现没挂载, 处理一下. (不想每次都去百度怎么挂载, 还是整理一下) 查看状态# 查看磁盘状态, 发现有一块新磁盘 /dev/vdb fdisk -lDisk /dev/vda
2022-06-04

linux怎么重新格式化硬盘并挂载

在Linux系统中重新格式化硬盘并挂载的步骤如下:确保硬盘没有被挂载,可以通过执行以下命令查看当前挂载的硬盘:df -h如果硬盘已经被挂载,可以执行以下命令卸载硬盘:sudo umount /dev/sdX其中,/dev/sdX是硬盘的设
linux怎么重新格式化硬盘并挂载
2024-03-14

Linux初始化系统盘后重新挂载数据盘方法

linux实例初始化系统盘后重新挂载数据盘在Linux实例中,重新初始化系统盘不会改变数据盘里的内容,但是数据盘的挂载信息会丢失,所以,在Linux重启后,按以下步骤创建新的挂载点信息并挂载数据盘分区。 说明:本文档中,假设初始化系统盘之前
2022-06-04

win7清理磁盘后重新启动更新失败的响应方法

网友在清理C盘后发现电脑在重新启动时无法成功更新设备,原因众多。win7如果磁盘清洗后重新启动设备更新失败怎么办?您能否关闭重新启动计算机配置更新的页面?下面的小系列将教你win清理C盘后发生win7重新启动更新失败的解决方案。我们可以自动
2023-07-10

shell脚本怎么快速创建、格式化、挂载新添加的磁盘

这篇文章主要介绍了shell脚本怎么快速创建、格式化、挂载新添加的磁盘,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。一、通过管理员选择创建、格式化、挂载新添加的磁盘脚本#!
2023-06-09

如何在CentOS7中添加新磁盘而不用重启系统

这篇文章给大家介绍如何在CentOS7中添加新磁盘而不用重启系统,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。对大多数系统管理员来说扩充 Linux服务器的磁盘空间是日常的工作之一。1.虚拟机客户端扩充磁盘空间:为 L
2023-06-16

SAN存储卷扩容后对应客户端磁盘和挂载磁盘的分区如何正确显示新增容量

总结:SAN存储的卷可以不是LVM模式情况下,对卷新增容量后,客户端需要重启才可以看到卷对应的磁盘新增后的容量,再对该磁盘执行resize2fs后,该磁盘挂载的分区才可以看到新增后的容量--确定需要新增容量的磁盘在客户端显示200G,已在存
2023-06-06

blkid命令如何帮助优化系统启动过程中的磁盘挂载顺序

blkid命令本身并不直接优化系统启动过程中的磁盘挂载顺序,但它可以帮助确认磁盘分区的UUID,这对于确保在/etc/fstab文件中的正确挂载至关重要。UUID是一个通用唯一识别码,用于唯一标识一个文件系统。通过blkid命令,可以查询到
blkid命令如何帮助优化系统启动过程中的磁盘挂载顺序
2024-10-11

shell脚本快速创建、格式化、挂载新添加的磁盘实现方法详解

一、通过管理员选择创建、格式化、挂载新添加的磁盘脚本#! /bin/bash echo "==============================" PS3="chose which disk you want to create:ww
2022-06-04

linux下如何使用fdisk结合partprobe命令不重启系统添加一块新的磁盘分区

linux下如何使用fdisk结合partprobe命令不重启系统添加一块新的磁盘分区,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。主机自带硬盘超过300GB,
2023-06-13

编程热搜

目录