Latch导致MySQL Crash

2024-04-02 19:55

短信预约 -IT技能 免费直播动态提醒

沃趣科技高级数据库专家董红禹

一、问题概述

最近我们遇到一个MySQL的问题，分析后很有代表意义，特地写出来供大家参考。
出现问题是，数据库先是被置为只读，然后过了一段时间，MySQL直接Crash掉了
发生Crash时MySQL的error日志中打印了以下内容:

		


	
	
		---------- 
	

	
		SEMAPHORES 
	

	
		---------- 
	

	
		OS WAIT ARRAY INFO: reservation count 1246555 
	

	
		--Thread 140363572082432 has waited at row0upd.cc line 2354 for 253.00 seconds the semaphore: 
	

	
		X-lock (wait_ex) on RW-latch at 0x7fa949340740 created in file buf0buf.cc line 1069 
	

	
		a writer (thread id 140363572082432) has reserved it in mode  wait exclusive 
	

	
		number of readers 1, waiters flag 1, lock_word: ffffffffffffffff 
	

	
		Last time read locked in file btr0sea.cc line 931 
	

	
		Last time write locked in file /export/home/pb2/build/sb_0-17068951-1447697721.44/mysql-5.6.28/storage/innobase/row/row0upd.cc line 2354

根据日志中我们可以看到，线程140363572082432要对记录上一个X锁，但是等待0x7fa949340740线程的RW-latch的释放

我们在向下看查询到如下信息(涉及到用户信息谓词就用xxx代替):

		


	
	
		173 lock struct(s), heap size 30248, 7925 row lock(s), undo log entries 7924 
	

	
		MySQL thread id 5709783, OS thread handle 0x7fa8f0da7700, query id 92213034 10.23.163.54 citicqyh updating 
	

	
		update TB_DEPARTMENT_INFO set TOTAL_USER=1 where ID='ac84f17e-82d3-4519-a1da-0d5a5a835d44' 
	

	
		---TRANSACTION 53065242, ACTIVE 313 sec fetching rows, thread declared inside InnoDB 2081 
	

	
		mysql tables in use 2, locked 0 
	

	
		MySQL thread id 5428690, OS thread handle 0x7fa8f0136700, query id 92213061 10.23.163.55 citicqyh Sending data 
	

	
		SELECT COUNT(DISTINCT r.user_id) FROM TB_DEPARTMENT_INFO d left join tb_qy_user_department_ref r on r.department_id = d.id WHERE d.org_id = 'xxx' AND (d.dept_full_name LIKE 'xxx%' or d.dept_full_name = 'xxx 
	

	
		Trx read view will not see trx with id >= xxx, sees < xxx 
	

	
		......还有很多select语句省略

根据上面信息我们去数据库中查看了这些select语句，发现执行计划都是全表扫描。
首先数据库变成了只读，最后数据库crash了，crash输出的信息如下:

		


	
	
		---------------------------- 
	

	
		END OF INNODB MONITOR OUTPUT 
	

	
		============================ 
	

	
		InnoDB: ###### Diagnostic info printed to the standard error stream 
	

	
		InnoDB: Error: semaphore wait has lasted > 600 seconds 
	

	
		InnoDB: We intentionally crash the server, because it appears to be hung. 
	

	
		 7fa8f9580700 InnoDB: Assertion failure in thread 140363714529024 in file srv0srv.cc line 1754 
	

	
		InnoDB: We intentionally generate a memory trap. 
	

	
		InnoDB: Submit a detailed bug report to http://bugs.mysql.com. 
	

	
		InnoDB: If you get repeated assertion failures or crashes, even 
	

	
		InnoDB: immediately after the mysqld startup, there may be 
	

	
		InnoDB: corruption in the InnoDB tablespace. Please refer to 
	

	
		InnoDB: http://dev.mysql.com/doc/refman/5.6/en/forcing-innodb-recovery.html 
	

	
		InnoDB: about forcing recovery.

InnoDB: Error: semaphore wait has lasted > 600 seconds 提示600秒没有响应数据库选择了Crash 强制重启

从报错信息来看：

update语句需要在记录上面加X锁，但是必须等待RW-Latch的释放
由于有大量的select语句是全表扫描，一直占用latch没有释放，update迟迟竞争不到RW-latch
Innodb 的Diagnostic线程检查到RW-Latch等待超过了600秒还没有返回，认为系统出现了严重问题，于是触发了MySQL服务的Crash。

二、进一步分析

这里首先需要补充一下Latch的概念：Latch在MySQL中是用于保护高速缓冲区中共享数据的，举个例子:
当我们执行select时，数据是缓存在buffer pool中的，多个线程并发访问或者修改这个数据必然需要一个并发控制机制，这个就是Latch

大家知道，数据库要访问的数据都必须先存在缓存中，而缓存一般比磁盘空间要小，数据缓存使用hash表来记录数据页是否在内存中。在Oracle中的并发控制比较精细：首先会对hash桶加latch，并根据hash桶查找对应的数据并加上pin，然后释放Latch。而MySQL相对没有控制得这么精细，对应的RW-Latch在errlog中说的很清楚，该RW-Latch是在buf0buf.cc的1069行创建的
RW-latch at 0x7fa949340740 created in file buf0buf.cc line 1069

对应的代码摘录如下：

		


	
	
		rw_lock_create(PFS_NOT_INSTRUMENTED, &block->lock, SYNC_LEVEL_VARYING);

跟踪源码，知道这个Latch是MySQL在数据库启动，初始化 innodb_buffer_pool时，将Latch创建好的。对应的函数调用过·程:

		


	
	
		buf_pool_init_instance()->buf_chunk_init()->buf_block_init()

正是由于这个RW-Latch被长时间占用了，其他的线程一直竞争不到，才导致了这个问题

三、修复建议

这类问题的发生多数都是因为SQL写的不好，在表上面进行了大量的全表扫描占用了大量的Latch，解决方案就是避免SQL长时间占用latch：

修改select查询避免全表扫描，避免latch长期被占用
适当的加索引，让select执行更快，也避免一个select锁的数据更少
适当加大buffer pool instance，每个buffer pool都有自己独立的Latch，避免latch竞争。

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

阅读原文内容投诉

Latch导致MySQL Crash

下载Word文档到电脑，方便收藏和打印～

下载Word文档

Latch导致MySQL Crash

沃趣科技高级数据库专家 董 红 禹

一、问题概述

二、进一步分析

三、修复建议

Latch导致MySQL Crash

相关文章

猜你喜欢

Latch导致MySQL Crash

故障分析 | binlog flush 失败导致的 Crash

MySQL中一条SQL使磁盘暴涨并导致MySQL Crash该怎么办

C++的异常机制导致的crash问题

【Mysql】JDB2导致磁盘io使用率高 导致mysql延迟过高

Mysql NULL导致的神坑

MySQL表索引损坏致Crash及修复过程是怎样的

deadlock导致MySQL Hang分析(转)

Mysql导致CPU飙高的问题

情况导致MySQL索引失效

MySQL为Null会导致5个问题(个个致命)

【Mysql】mysql主键的缺少导致备库hang

MySQL主从同步报错，server-id一致导致报错

Mysql 字符集不一致导致连表异常的解决

MySQL与GORM并发写入导致错误

mysql insert导致死锁的案例介绍

MySQL字符集不一致导致性能下降25%，你敢信？

MySQL使用ReplicationConnection导致连接失效解决

OOM导致MySQL服务被kill案例一则

MySQL 5.6因为OOM导致数据库重启

热门标签

编程热搜

编程资源站

目录

感谢您的提交，我们服务专员将在30分钟内给您回复

沃趣科技高级数据库专家董红禹

【Mysql】JDB2导致磁盘io使用率高导致mysql延迟过高