我的编程空间,编程开发者的网络收藏夹
学习永远不晚

MySQL大量脏数据,如何只保留最新的一条?

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

MySQL大量脏数据,如何只保留最新的一条?

因为系统的一个Bug,导致数据库表中出现重复数据,需要做的是删除重复数据且只保留最新的一条数据。

具体场景是这样的

有张订单关联额外费用表,而且一个订单号(order_no)记录只能关联同一个费用(cost_id)一次,但是数据库中出现了同一个订单号关联同一个费用n次

当然有人会说上面的问题我们可以建一个 order_no + cost_id 的组合唯一索引,这样就算代码有bug但至少数据库表中不会有脏数据。

似乎这样就可以了,然而事情并没有那么简单。

因为我们表中的数据在删除的时候不会真的的删除,而是采用逻辑删除,会有一个 deleted 字段使用0,1标识未删除与已删除。

当然 我们也可以考虑将 order_no + cost_id + deleted 组合成一个联合唯一索引。

这样就ok了吗?

其实会有一个新的问题,就是如果同一个订单同一个费用如果被删除一次。再去删除会发现无法成功进行此操作,因为该条数据已经存在了,不能在删除了。

所以当时我们并没有建立联合唯一索引,才导致脏数据的产生。

其实上面这种场景网上有个比较好的解决方案,就是我们依旧可以将 order_no + cost_id + deleted 组合成一个联合唯一索引,
但是删除的时候deleted不再是固定的1,而是当前的主键ID,也就是deleted不等于0都是删除状态,如果删除了那deleted值=id

言归正传,接下来我们来讲下该如何修复脏数据的问题

我们先创建一张订单关联费用表

CREATE TABLE `order_cost_detail` (
  `id` int NOT NULL AUTO_INCREMENT COMMENT '主键',
  `order_no` varchar(32)  NOT NULL COMMENT '订单号',
  `cost_id` int NOT NULL COMMENT '费用Id',
  `cost_name` varchar(50)  NOT NULL DEFAULT '' COMMENT '费用名称',
  `money` decimal(10,2) NOT NULL COMMENT '金额',
  `create_time` datetime NOT NULL COMMENT '创建时间',
  `deleted` tinyint(1) NOT NULL COMMENT '是否删除(0 否,1 是)',
  PRIMARY KEY (`id`) USING BTREE
) ENGINE=InnoDB AUTO_INCREMENT=1  COMMENT='订单 - 费用表';

插入一些模拟数据

INSERT INTO `order_cost_detail` (`id`, `order_no`, `cost_id`, `cost_name`, `money`, `create_time`, `deleted`)
VALUES
	(1, 'EX202208160000012-3', 2, '停车费', 100.00, '2022-08-19 11:30:48', 0),
	(2, 'EX202208160000012-4', 3, '停车费', 100.00, '2023-02-17 11:25:27', 0),
	(3, 'EX202208160000012-4', 3, '停车费', 200.00, '2023-02-17 11:25:28', 0),
	(4, 'EX202208170000002-1', 1, '路桥费', 300.00, '2022-08-19 11:31:57', 0),
	(5, 'EX202208170000002-1', 1, '路桥费', 450.00, '2022-08-19 11:32:57', 0),
	(6, 'EX202208180000002-1', 2, '高速费', 225.00, '2022-08-19 11:35:41', 0);

MySQL大量脏数据,如何只保留最新的一条?

我们的目的很明确,就是要删除 多余的同一订单号费用相同的数据,同时保留最新的一条数据。

我们可以先用sql看下是否有重复数据

SELECT order_no, cost_name, count(*) AS num
FROM order_cost_detail
WHERE deleted = 0
GROUP BY order_no, cost_name
HAVING num > 1

运行结果

MySQL大量脏数据,如何只保留最新的一条?

发现有两个订单有脏数据,如果实际生产只有两条脏数据那简单,直接查询这两个订单,把重复数据删掉就好了。

但如果有几十条甚至上百条数据呢,总不能一条一条的删吧。

一般我们删除重复数据都会保留最新的那条,所以我们可以这样做

如果主键是自增的,那么重复数据删除的时候,主键最大的一条就是需要保留的,如果主键不是自增的,我们可以根据创建时间,保留创建时间最大的记录

我们先看下,我们需要删除的记录

select *
from order_cost_detail
where id not in (
	select max(id) as num
	from order_cost_detail
	where deleted = 0
	group by order_no, cost_name
)

查询结果

MySQL大量脏数据,如何只保留最新的一条?

根据结果来看确实是这两条记录需要删除,那么我们开始执行删除操作

sql如下

-- 这里是逻辑删除,也就是将需要删除的数据打上deleted = 1 标记
update order_cost_detail
set deleted = 1
where id in (
select id from order_cost_detail where id not in (
select max(id) as num from order_cost_detail where deleted = 0 group by order_no, cost_name
		)
	)

执行的时候发现报错了

You can't specify target table 'order_cost_detail' for update in FROM clause

它的意思是说,不能在同一语句中,先select出同一表中的某些值,再update这个表,即不能依据某字段值做判断再来更新某字段的值。

这个问题在mysql官网中有提到解决方案:拉到文档下面 https://dev.mysql.com/doc/refman/8.0/en/update.html

解决方法:select 的结果再通过一个中间表 select 多一次,就可以避免这个错误

update order_cost_detail
set deleted = 1
where id in (
select t.id
from
( 
select id from order_cost_detail where id not in (
select max(id) as num from order_cost_detail where deleted = 0 group by order_no, cost_name )
	) t
)

执行成功

MySQL大量脏数据,如何只保留最新的一条?

阿里巴巴手册索引规范,第一条就是

【强制】业务上具有唯一特性的字段,即使是组合字段,也必须建成唯一索引。

说明:不要以为唯一索引影响了insert速度,这个速度损耗可以忽略,但提高查找速度是明显的:另外,即使在应用层做了非常完善
的校验和控制,只要没有唯一索引,根据墨菲定律,必然有脏数据产生。

到此这篇关于MySQL大量脏数据,如何只保留最新的一条?的文章就介绍到这了,更多相关MySQL保留最新的一条内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

MySQL大量脏数据,如何只保留最新的一条?

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

MySQL大量脏数据,如何只保留最新的一条?

因为系统的一个Bug,导致数据库表中出现重复数据,需要做的是删除重复数据且只保留最新的一条数据。具体场景是这样的有张订单关联额外费用表,而且一个订单号(order_no)记录只能关联同一个费用(cost_id)一次,但是数据库中出现了同
2023-04-21

MySQL大量脏数据如何只保留最新的一条(最新推荐)

这篇文章主要介绍了MySQL大量脏数据,如何只保留最新的一条,本文给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
2023-05-16

mysql清理重复数据,并保留最新一条

背景 之前,数据是通过表单提交 后来增加了excel批量导入的功能,但是这个接口没有判断数据重复,覆盖更新 导致线上环境出现大量重复数据 如果要保证数据库不出现重复数据,可以添加唯一索引来限制 参考:Mysql重复数据查重保留一条(i
2023-08-16

Mysql 删除重复数据保留一条有效数据(最新推荐)

目录mysql 删除重复数据保留一条有效数据一、Mysql 删除重复数据,保留一条有效数据二、Mysql 删除重复数据(多个字段分组)三、Mysql 查询出可以删除的重复数据补充:mysql删除重复记录并且只保留一条MySql如何删除所有多
2023-02-06

oracle如何取最新的一条数据

可以使用以下 SQL 查询语句来获取最新的一条数据:SELECT * FROM table_nameORDER BY date_column DESCFETCH FIRST 1 ROW ONLY;在这个查询中,首先对表中的数据按照日期
oracle如何取最新的一条数据
2024-04-09

redis如何与最新的数据保持一致

要保持Redis与最新的数据保持一致,可以通过以下几种方法:1. 频繁更新:在更新数据时,同时更新Redis中的对应数据。这样可以确保Redis中的数据与最新数据保持一致。但是这种方式会增加数据更新的复杂性和开销。2. 定时刷新:定时从数据
2023-08-24

如何用php查询数据库中最新的一条数据

本篇内容主要讲解“如何用php查询数据库中最新的一条数据”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“如何用php查询数据库中最新的一条数据”吧!查询数据库中的最新一条数据通常需要以下步骤:连接
2023-07-05

oracle/mysql数据库多条重复数据如何取最新的

目录mysql1、分组取最新的,再用最新的字段连表,回查数据①按分组字段取最新的,通过主键id回表查数据②非主键字段oracle1、原理讲解-可直接看22、在重复数据取最新的3、若要删除不满足条件附:ORACLE 查询某个时间之前的重复数据
oracle/mysql数据库多条重复数据如何取最新的
2024-08-09

SQL Group By分组后如何选取每组最新的一条数据

经常在分组查询之后,需要的是分组的某行数据,例如更新时间最新的一条数据,下面这篇文章主要给大家介绍了关于SQL Group By分组后如何选取每组最新的一条数据的相关资料,需要的朋友可以参考下
2022-11-13

如何在MySQL中创建一个高效的会计系统表结构以处理大量的数据?

如何在MySQL中创建一个高效的会计系统表结构以处理大量的数据?在现代商业中,会计系统扮演着重要的角色,用于记录和管理大量的财务数据。而在MySQL数据库中,如何设计高效的表结构来处理这些数据成为了一个关键问题。本文将介绍一种针对会计系统的
如何在MySQL中创建一个高效的会计系统表结构以处理大量的数据?
2023-10-31

编程热搜

目录