我的编程空间,编程开发者的网络收藏夹
学习永远不晚

Mysql大表全表update的的实现

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

Mysql大表全表update的的实现

前言

有些时候在进行一些业务迭代时需要我们对mysql表中数据进行全表update,如果是在数据量比较小的情况下(万级别),可以直接执行sql语句,但是如果数据量达到一个量级后,就会出现一些问题,比如主从架构部署的Mysql,主从同步需要需要binlog来完成,而binlog格式如下,其中使用statement和row格式的主从同步之间binlog在update情况下的展示:

格式内容
statement记录同步在主库上执行的每一条sql,日志量较少,减少io,但是部分函数sql会出现问题比如random
row记录每一条数据被修改或者删除的详情,日志量在特定条件下很大,如批量delete、update
mixed以上两种方式混用,一般的语句修改使用statement记录,其他函数式使用row

Mysql大表全表update的的实现

我们当前线上mysql是使用row格式binlog来进行的主从同步,因此如果在亿级数据的表中执行全表update,必然会在主库中产生大量的binlog,接着会在进行主从同步时,从库也需要阻塞执行大量sql,风险极高,因此直接update是不行的。本文就从我最开始的一个全表update sql开始,到最后上线的分批更新策略,如何优化和思考来展开说明。

正文

直接update的问题

我们前段时间需要将用户的一些基本信息存储从http转换为https,库中数据大概在几千w的级别,需要对一些大表进行全表update,最开始我试探性的跟dba同事抛出了一个简单的update语句,想着流量低的时候执行,如下:

update tb_user_info set user_img=replace(user_img,'http://','https://')

深度分页问题

上面肯定是不合理的会给主库生成binlog、从库接收binlog写数据带来很大的压力,于是就想使用脚本分批处理如下所示: 写一个这样的脚本,依次分批替换,limit的游标不断增加。大概一看是没有问题的,但是仔细一想mysql的limit游标进行的范围查找原理,是下沉到B+数的叶子节点进行的向后遍历查找,在limit数据比较小的情况下还好,limit数据量比较大的情况下,效率很低接近于全表扫描,这也就是我们常说的“深度分页问题”。

update tb_user_info set user_img=replace(user_img,'http://','https://') limit 1,1000;

in的效率

既然mysql的深分页有问题,那么我就把这批id全部查出来,然后更新的id in这些列表,进行批量更新可以吗?于是我又写了类似下面sql的脚本。结果是还不行,虽然mysql对于in这些查找有一些键值预测,但是仍然是很低效。

select * from tb_user_info where id> {index} limit 100;
update tb_user_info set user_img=replace(user_img,'http','https')where id in {id1,id3,id2};

最终版本

最终在与dba的多次沟通下,我们写了如下的sql及脚本,这里有几个问题需要注意,我们在select sql中使用了这个语法,这个语法的意思就是本次查询不使用innodb的buffer pool,也不会将本次查询的数据页放到buffer pool中作为热点数据的缓存。接着对于查询强制使用主键索引FORCE INDEX(PRIMARY),并且根据主键索引排序,排序后的数据进行id游标的筛选。最后执行update更新时,由于我们在前面的sql中查询到的就是已经排序后的主键,因此可以对id执行范围查找。

select  id from tb_user_info FORCE INDEX(`PRIMARY`) where id> "1" ORDER BY id limit 1000,1;
update tb_user_info set user_img=replace(user_img,'http','https') where id >"{1}" and id <"{2}";

我们可以仅关注第一个sql,如下图所示,是buffer pool大概内容,我们可以通过这个no cache的关键字,对批量处理的数据进行强制指定不走buffer pool,不把这些冷数据影响到正常使用的缓存内容,防止效率的降低,其实mysql在一些备份的动作中。使用的数据扫描sql也会带上这个关键字,防止影响到正常的业务缓存;接着需要强制对当前查询指定的主键索引,然后进行排序,否则mysql有可能在计算io成本进行索引选择时,选择其他的索引。

Mysql大表全表update的的实现

使用这样的方式对数据库进行批量更新可以通过一个接口来控制速率,对于数据库主从同步、iops、内存使用率等关键属性进行观察,手动调整刷库速率。这样看是单线程阻塞的操作,其实接口也可以定义线程个数等属性,接口中根据赋予的线程个数,通过线程池并行刷数据,从而提高全表更新速率的上限,同时对速率进行控制控制。

其他问题

如果我们使用snowflake雪花算法或者自增主键来生成主键id的话,插入的记录都是根据主键id顺序插入的,如果使用uuid这种我们怎么处理?当然是业务中就预先处理了,先把入库的数据提前进行替换,进行代码上线后再进行的全量数据更新了。

结语

刷数据本来是一个异常枯燥的工作内容,但是从这次数据量较大的数据更新从而与dba同事的多次沟通后,也对mysql有了一些新的理解,包括不限于下面几个,共同学习。

  • binlog格式带来的大数据量更新的主从同步问题;
  • Mysql深分页的效率问题;
  • 全表扫数据如何防止对buffer pool污染到我们业务正常的热点数据。

到此这篇关于Mysql大表update的的实现的文章就介绍到这了,更多相关Mysql大表update内容请搜索编程网(www.lsjlt.com)以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网(www.lsjlt.com)! 

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

Mysql大表全表update的的实现

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

Mysql大表全表update的的实现

目录前言正文直接update的问题深度分页问题in的效率最终版本其他问题结语前言有些时候在进行一些业务迭代时需要我们对mysql表中数据进行全表update,如果是在数据量比较小的情况下(万级别),可以直接执行sql语句,但是如果数据量达
Mysql大表全表update的的实现
2024-08-20

MYSQL大表加索引的实现

起因是这样的,ZclOBGWDG有一张表存在慢sql,查询耗时最多达到12s,定位问题后发现是由于全表扫描导致,需要对字段增加索引,但是表的数据量600多万有些大,网上很多都说对大表增加索引可能会导致锁表,查阅了一些资料,可以说网上说了很多
2023-05-30

MySQL 大表的count()优化实现

以下是基于我结合B+树的数据结构和对实验结果的推测作出的判断,如有错误,恳请指正! 今天实验了一下MySQL的count()操作优化, 以下讨论基于mysql5.7 InnoDB存储引擎. x86 windows操作系统。 创建的表的结构如
2022-05-12

MySQL 大表添加一列的实现

问题参考自: https://www.zhihu.com/question/440231149 ,mysql中,一张表里有3亿数据,未分表,要求是在这个大表里添加一列数据。数据库不能停,并且还有增删改操作。请问如何操作?答案为个人原创 以前
2022-05-23

PHP 在 MySQL 表中的 UPDATE 查询

在本篇文章中,我们将介绍 PHP UPDATE 语句。我们将探讨如何使用此语句更新 MySQL 表中的现有记录。在 PHP 中使用 mysqli_connect 连接到包含 MySQL 表的数据库首先,我们需要了解如何连接到 MySQL 表
PHP 在 MySQL 表中的 UPDATE 查询
2024-02-27

MySQL大表count()的优化实现示例

小编给大家分享一下MySQL大表count()的优化实现示例,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!今天实验了一下MySQL的count()操作优化, 以下
2023-06-14

mysql 大表批量删除大量数据的实现方法

问题参考自:https://www.zhihu.com/question/440066129/answer/1685329456 ,mysql中,一张表里有3亿数据,未分表,其中一个字段是企业类型,企业类型是一般企业和个体户,个体户的数据量
2022-05-11

Mysql大表全表查询的全过程(分析底层的数据流转过程)

目录mysql大表全表查询1、Server层2、innoDB层总结Mysql大表全表查询当我们需要对一整张大表的数据执行全量查询操作,比如sejslect * from t 没有where条件,整个数据有几千万条占用内存大概 100G,而
Mysql大表全表查询的全过程(分析底层的数据流转过程)
2024-08-13

MySQL的锁机制之全局锁和表锁的实现

前言对mysql锁的总结学习,本文将围绕,加锁的概念,加锁的应用场景和优化,以php及不加锁会导致的问题这些方向进行总结学习。mysql的全局锁和表锁是本文的重编程点一、全局锁全局锁的介绍以及使用全局锁就是对整个数据库实例进行加锁。
2023-01-15

MYSQL表的全面分析

这篇文章主要介绍“MYSQL表的全面分析”,在日常操作中,相信很多人在MYSQL表的全面分析问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”MYSQL表的全面分析”的疑惑有所帮助!接下来,请跟着小编一起来学习吧
2023-06-25

mysql 查看表大小的方法实践

1.查看所有数据库容量大小selecttable_schema as '数据库',sum(table_rows) as '记录数',sum(truncate(data_length/1024/1024, 2)) as '数据容量(M
2023-01-05

mysql查看表大小的方法实践

本文主要介绍了mysql查看表大小的方法实践,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
2023-01-05

MySQL约束和表的复杂查询操作大全

目录一. 数据库约束1. 数据库常用约束2. not null 约束3. unique约束4. default设置默认值5. primary key约束6. 分库分表下的自增主键7. foreign key约束8. 主键,外键,uniqe运
2022-11-19

MySQL表复合查询的实现

本文主要介绍了MySQL表的复合查询,如何使用多表查询、子查询、自连接、内外连接等复合查询的案例,感兴趣的可以了解一下
2023-05-19

编程热搜

目录