我的编程空间,编程开发者的网络收藏夹
学习永远不晚

Zookeeper bug的排查方法

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

Zookeeper bug的排查方法

本篇内容主要讲解“Zookeeper bug的排查方法”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Zookeeper bug的排查方法”吧!

起因

某一天突然有同事说zk client连不上server,考虑到最近业务代码没有变更,怀疑是运维同学做了什么操作导致,急忙联系运维同学,确实最近做了变更。为了避免扩大影响范围,先让运维同学回滚了变更,回滚后可以正常访问了。

复现问题

询问运维同学后,得到变更流程:由于zk集群有一台服务器存在性能隐患,需要变更到新的一个实例。于是运维先将新机器加入zk集群,修改旧服务器上配置逐个重启,重启后新zk的角色是leader,此时zk状态正常,运维同学也就认为变更完成。

结果意想不到的是使用mntr命令查看,所有的机器状态都是正常,但是zk client无法访问,一访问就卡住,问题可以在测试环境稳定复现。

问题排查

1 猜测zk端口没有监听成功,登录服务器使用netstat查看server打开的三个端口都是正常状态,也使用了telnet测试可以连上。

2 猜测同步节点数不足一半,或者follower连不上leader触发重新选举,但很快就被排除,因为上面说了使用mntr命令查看节点状态都正常,从日志中也未能找到对应日志记录。

3 我们再使用stat来观察server的连接情况,运行zk client发现server收到了client的请求,但是没有回消息,看来原因就是zk server没处理client的请求了。

跟踪到这里,就应该进入源码了,由于对zk源码不熟悉,咨询了某位大佬,建议我们看zk请求处理类CommitProcessor。

在CommitProcessor我们发现了原因,代码如下:

<code>@Override public void start() {     ...     if (workerPool == null) {         workerPool = new WorkerService("CommitProcWork", numWorkerThreads, true);     }     ... }  public void shutdown() {     LOG.info("Shutting down");      halt();      if (workerPool != null) {         workerPool.join(workerShutdownTimeoutMS);     }      if (nextProcessor != null) {         nextProcessor.shutdown();     } } </code><button>复制</button>

在shutdown中调用了 workerPool.join实际上已经将请求处理的开关关闭了,但是并没有将workerPool设置为null。在start方法中会根据workerPool==null来创建WorkerService并开始处理请求。

修改后重新验证解决。

到此,相信大家对“Zookeeper bug的排查方法”有了更深的了解,不妨来实际操作一番吧!这里是编程网网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

Zookeeper bug的排查方法

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

涉及到linux内核的bug排查过程是怎样的

这期内容当中小编将会给大家带来有关涉及到linux内核的bug排查过程是怎样的,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。编写代码只是程序员的工作之一,调试代码的时间甚至会超过编写代码,之前为大家讲解了
2023-06-15

win10干净启动排查的方法

这篇文章主要介绍“win10干净启动排查的方法”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“win10干净启动排查的方法”文章能帮助大家解决问题。win10干净启动排查步骤XP系统:步骤 1:启动系
2023-07-01

k8s pending排查的方法是什么

在 Kubernetes 中,Pod 处于 Pending 状态通常是由于各种原因导致的,比如资源不足、网络配置问题、调度问题等。要排查 Pod 处于 Pending 状态的问题,可以按照以下步骤进行:查看 Pod 的状态和事件:使用 ku
k8s pending排查的方法是什么
2024-03-04

排查Redis大key的方法总结

目录排python查Redis大key的方法redis-cli --bigkeysredis-cli scan VS memory usage组合使用云上的Redis可以直接使用CloundDBA功能redis-rdb-tools排查Red
排查Redis大key的方法总结
2024-08-14

Zookeeper扩展的方法是什么

这篇文章主要介绍“Zookeeper扩展的方法是什么”,在日常操作中,相信很多人在Zookeeper扩展的方法是什么问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Zookeeper扩展的方法是什么”的疑惑有所
2023-06-05

MySQL中数据丢失排查的方法

这篇文章主要介绍了MySQL中数据丢失排查的方法,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。现场排查一开始听到这个消息,我心里面当然也是非常紧张,不过很快就让自己冷静下来,
2023-06-14

Elasticsearch聚合查询及排序的方法

这篇“Elasticsearch聚合查询及排序的方法”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“Elasticsearch
2023-06-30

docker zookeeper集群搭建的方法

本篇内容主要讲解“docker zookeeper集群搭建的方法”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“docker zookeeper集群搭建的方法”吧!准备工具一、安装docker 二
2023-06-19

MySQL故障排查的方法是什么

MySQL故障排查方法主要包括以下几个步骤:1. 确认故障现象:通过观察数据库的表现和错误日志来判断故障的具体表现,比如错误代码、错误信息、数据库响应时间等。2. 检查硬件和网络:故障可能与硬件或网络有关,因此需要检查服务器的硬件状况,包括
2023-10-20

tomcat崩溃排查的方法是什么

排查Tomcat崩溃的方法包括以下几个步骤:1. 查看日志文件:首先,查看Tomcat的日志文件,通常位于Tomcat安装目录下的logs文件夹中。特别是查看catalina.out文件,其中包含了Tomcat的启动和运行过程中的错误和异常
2023-09-16

编程热搜

目录