位置：首页-资讯-数据库

为什么在MySQL双主单写的情况下主库偶尔出现大量延迟

2024-04-02 19:55

短信预约 -IT技能 免费直播动态提醒

为什么在MySQL双主单写的情况下主库偶尔出现大量延迟，相信很多没有经验的人对此束手无策，为此本文总结了问题出现的原因和解决方法，通过这篇文章希望你能解决这个问题。

我们是双主单写，这里约定写入的库为主库，没有写入的库为从库。我们的falcon偶尔会进行报警如下（频率很低）：

为什么在MySQL双主单写的情况下主库偶尔出现大量延迟

这是非常奇怪的，按理说我是单写的从库没有做任何操作（除了应用Event以外），主库哪来的延迟，并且延迟这么大。在我映像中有朋友问过这个问题，当时没有细细研究。

二、延迟计算的规则

我们还是要看看主从计算延迟的伪代码：

计算延迟的公式为：

long time_diff= ((long)(time(0)
                          - mi->rli->last_master_timestamp)
                          - mi->clock_diff_with_master);
也就是：
服务器当前时间-Event header中的timestamp - 主从服务器时间差

出现延迟的必要条件：

如果SQL线程没有应用完了所有的IO线程写入的Event，也就是Read_Master_Log_Pos和Exec_Master_Log_Pos存在一定的差值。判定标准为
```
(mi->get_master_log_pos() == mi->rli->get_group_master_log_pos()) &&
      (!strcmp(mi->get_master_log_name(), mi->rli->get_group_master_log_name()))
```
抛开文件名，也就是通过 IO线程读取到主库binary log的位置和 SQL线程应用到的主库binary log位置进行比较来进行判断，只要他们出现差值就会进入延迟计算环节。
服务器当前时间-Event header中的timestamp - 主从服务器时间差这个公式必须出现差值。

好了接下来带着这两个产生延迟的必要条件来寻求原因。

三、产生延迟的原因

1.主库：首先主库写到从库的Event，从库会写入到binlog（log_slave_updates 开启），并且从库的DUMP线程会发送给主库，但是主库的IO线程通过SERVER_ID进程判定，将Event进行过滤，不写入主库的relay log，同时会更新主库IO线程读取的位置（Read_Master_Log_Pos），并且更新忽略到的位置（rli->ign_master_log_name_end[0]）。代码如下：

    if (!(s_id == ::server_id && !mi->rli->replicate_same_server_id) ||
        (event_type != binary_log::FORMAT_DESCRIPTION_EVENT &&
         event_type != binary_log::ROTATE_EVENT &&
         event_type != binary_log::STOP_EVENT))
    {
      mi->set_master_log_pos(mi->get_master_log_pos() + inc_pos);//增加Read_Master_Log_Pos位点，为当前位置 
      memcpy(rli->ign_master_log_name_end, mi->get_master_log_name(), FN_REFLEN); //进行拷贝
      DBUG_ASSERT(rli->ign_master_log_name_end[0]); //断言存在
      rli->ign_master_log_pos_end= mi->get_master_log_pos(); //忽略到位点
    }

主库：SQL线程会通过rli->ign_master_log_name_end[0]判定是否有需要跳过的Event，如果有则构建一个Rotate_log_event来跳过这个Event，代码如下：

if (rli->ign_master_log_name_end[0]) //如果跳过的Event存在
        {
          
          DBUG_PRINT("info",("seeing an ignored end segment"));
          ev= new Rotate_log_event(rli->ign_master_log_name_end,
                                   0, rli->ign_master_log_pos_end, exec_relay_log_event 
                                   Rotate_log_event::DUP_NAME); //构建一个Rotate Event，位置为
          rli->ign_master_log_name_end[0]= 0;                   //rli->ign_master_log_pos_end，执行这个Event就可以
          mysql_mutex_unlock(log_lock);exec_relay_log_event     //来更新Exec_Master_Log_Pos位点
          if (unlikely(!ev))
          {
            errmsg= "Slave SQL thread failed to create a Rotate event "
              "(out of memory?), SHOW SLAVE STATUS may be inaccurate";
            goto err;
          }
          ev->server_id= 0; // don't be ignored by slave SQL thread
          DBUG_RETURN(ev);
        }

好了到这里我们知道了Event在主库是如何跳过的，但是注意IO线程和SQL线程在处理Read_Master_Log_Pos和Exec_Master_Log_Pos的时候可能有一定的时间差，那么Read_Master_Log_Pos和Exec_Master_Log_Pos存在一定的差值的条件就可能会满足，则进入延迟计算环节。

主库的SQL线程平时并没有读取到Event，因为所有的Event都被IO线程过滤掉了。因此
Event的 header中的timestamp 不会更新（MTS）。但是如果从库binlog切换的时候，从库至少会传送ROTATE_EVENT给主库，这个时候主库会拿到这个实际的Event，因此Event的 header中的timestamp 更新了。如果刚好遇到主库的IO线程的Read_Master_Log_Pos和Exec_Master_Log_Pos有差值，
那么falcon去查看延迟就会得到一个延迟很大的假象，延迟的计算公式就会变为如下：

主库当前的时候 - 从库上次binlog切换的时间 - 主从时间的差值

MTS和单线程的不同

上面的第3点只适用于MTS，单SQL线程不同，会去将last_master_timestamp设置为0，代码如下：

        if (!rli->is_parallel_exec())
          rli->last_master_timestamp= 0;

言外之意单SQL线程计算延迟的公式为：

主库当前的时间 - 1970年1月1日0点 - 主从时间的差值

因此看起来计算出来的延迟会更大。

最后需要注意的是实际上这种情况的延迟并没有问题，完全是一种偶尔出现的计算上的问题，是一种假象，如果主库的压力越大出现这种情况的可能性就会越大，因为IO线程和SQL线程在处理Read_Master_Log_Pos和Exec_Master_Log_Pos的出现时间差的可能性就会越大。

四、MTS下的延迟debug

其实知道了原理就很容易debug了，因为我们可以将断点放到主库的show_slave_status_send_data函数上，那么就能看出来了，做的操作如下：

从库flush binary logs
主库执行一些insert操作
主库show slave status

这个时候我们可以跳过（Read_Master_Log_Pos和Exec_Master_Log_Pos存在一定的差值）这个条件，直接通过公式去计算，得到如下结果：

(gdb) p (long)(time(0)- mi->rli->last_master_timestamp)- mi->clock_diff_with_master
$6 = 37

延迟就是37秒，因此我们的理论得到了验证。

下面一个debug结果是单SQL线程的，可以看到延迟更是大得离谱。

(gdb) p (long)(time(0)- mi->rli->last_master_timestamp)- mi->clock_diff_with_master
$7 = 1592672402

五、其他问题

额外的问题：

如果双主双写

S1	S2
	T1
T2
	T3

如果按照上面的理论那么T3的更新的位置可能会被，T2事务的位点重置。因为主库的SQL线程通过构建的Rotate_log_event可能会出现Exec_Master_Log_Pos倒退的可能性，这显然是不行的。但是代码中构建Rotate_log_event的逻辑包裹在如下逻辑下面。

if (!cur_log->error)  //当前relay log 已经读取完了
    {
      
      if (hot_log) //如果是 当前relay log

我们可以看到只有在当前 relay log读取完成后才会进行Rotate_log_event的构建。因此不存在此问题。

问题如上虽然不构建Rotate_log_event，但是如果rli->ign_master_log_name_end[0]如果一直保留那么当relay log应用完成后，依旧会去构建Rotate_log_event导致Exec_Master_Log_Pos倒退，实际上这个问题也不会出现，因为在每次IO线程Event写入到relay log后会重置，如下：
```
  rli->ign_master_log_name_end[0]= 0; // last event is not ignored
```

看完上述内容，你们掌握为什么在MySQL双主单写的情况下主库偶尔出现大量延迟的方法了吗？如果还想学到更多技能或想了解更多相关内容，欢迎关注亿速云行业资讯频道，感谢各位的阅读！

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

阅读原文内容投诉

为什么在MySQL双主单写的情况下主库偶尔出现大量延迟

下载Word文档到电脑，方便收藏和打印～

下载Word文档

为什么在MySQL双主单写的情况下主库偶尔出现大量延迟

二、延迟计算的规则

三、产生延迟的原因

四、MTS下的延迟debug

五、其他问题

为什么在MySQL双主单写的情况下主库偶尔出现大量延迟

相关文章

猜你喜欢

为什么在MySQL双主单写的情况下主库偶尔出现大量延迟

热门标签

编程热搜

Oracle Study--Oracle RAC CacheFusion（MindMap）

报表SQL

[mysql]mysql8修改root密码

MySQL专题3之MySQL管理

linux怎么查看mysql版本号

navicat导出csv乱码的方法

Mongodb数据库中mongostat工具用法

mysql如何查看帮助

navicat如何设置外键

centos7如何查看mysql的版本

编程资源站

2021年下半年软考高级信息系统项目管理师高频考点精选资料

2021下半年软考高级信息系统技术知识点记忆口诀精选资料

2021下半年软考《信息系统项目管理师》考试真题及答案精选资料

2021下半年软考高级考试备考攻略精选资料

2021年软考高级《信息系统项目管理师》巩固练习题汇总精选资料

2021下半年软考高级信息系统项目管理师30个易考知识点汇总精选资料

2021下半年软考高级知识点这样记，还担心记不住吗精选资料

2021年下半年软考高级考试重点汇总精选资料

2021下半年软考高级信息系统项目管理师计算公式汇总精选资料

2021年下半年软考高级《信息系统项目管理师》模拟试题精选资料

信息系统项目管理师选择题每日一练（2024）历年试题

2023年下半年信息系统项目管理师综合知识真题演练历年试题

目录

为什么在MySQL双主单写的情况下主库偶尔出现大量延迟

二、延迟计算的规则

三、产生延迟的原因

四、MTS下的延迟debug

五、其他问题

为什么在MySQL双主单写的情况下主库偶尔出现大量延迟

相关文章

猜你喜欢

为什么在MySQL双主单写的情况下主库偶尔出现大量延迟

热门标签

编程热搜

编程资源站

目录

感谢您的提交，我们服务专员将在30分钟内给您回复