我的编程空间,编程开发者的网络收藏夹
学习永远不晚

又见删库...

短信预约 信息系统项目管理师 报名、考试、查分时间动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

又见删库...

又见删库...

0. 事件回顾

2020.2.23日 18:56,员工通过VPN登入服务器并实施破坏。 2020.2.23日 19时,系统监控报告故障并启动应急方案。 2020.2.24日 微盟公司向警方报案。 2020.2.25日 7时,恢复部分生产环境和数据,并预计到凌晨0点能完成恢复,并向新用户恢复业务,但老用户预计还要到2月28日晚上才能恢复。

1. 为什么会发生"删库"

从官方发布的公告来看,是因为运维部的核心员工刻意进行的破坏,也就是说,这是人为的、恶意的、有计划的破坏行为,而不是我们最常见的误操作或黑客入侵所致。

不过,从我的经验来看,这起事件未必是真的人为破坏,具体分析就不贴了。总之,我对官方的公告存疑。不过也不能改变人为破坏这个事实,就看公安机关怎么定性了。

我们要做的是,进行反思和预防此类事件一再发生,这也是本文的用意。

此外这种意外事故受害的除了公司、员工,更无辜的是客户,我们祝福微盟能救回更多数据,将损失最小化。

2. 事故恢复的速度如何

从上面的回顾时间点来看,我认为恢复的速度并不算快。

我经过侧面了解,这起事件主要的影响是数据库的主备库都被删了,并且执行的是类似"rm -fr /"这样的操作。这种行为,基本上只能通过其他备库,或物理备份来恢复了。

从事后恢复情况来看,应该是没有更多可用的备库了,但备份数据应该是还有的,所以才需要花费这么长时间。

此外,备份数据恢复完后,通常还需要有一个校验核对的过程,所以一般会先发公告安抚客户的情绪。

不过新旧用户恢复服务的时间并不同,我们由此甚至可以猜测,备份机制可能不合理,新数据的备份更及时,旧数据的备份有延误,或者比如因为旧数据的量太大了导致延迟更久。

这次更糟糕的事,赶上特殊情况,大家都在家远程办公,协同起来肯定更慢,也影响了恢复速度,真是祸不单行。幸运的是,听说腾讯云已有多位技术专家参与了拯救工作,希望能尽快恢复。

3. 事件反思和预防

这次的事件,不同于常见的黑客入侵或误操作,而是源于内部发起的破坏,这种是最可怕、最难防范的行为。

我相信绝超过80%甚至90%的中小型公司,都无法避免这个问题。毕竟中小型公司的人员规模有限,想要进行非常细致的权限分级也不太现实,更容易因此降低工作效率和员工的积极性。

尽管如此,我们也尝试做点什么来预防此类事件再次发生。

首先,是权限分级

我们知道,为了提高工作效率,会部署自动化运维工具。但这样一来,也极大增加了误操作带来的风险。本次事件中,短时间内造成大面积服务器故障,基本可以断定是因为工具批量分发命令导致的。

所以,一定要进行权限分级,也包括业务范围分级。例如可以尝试以下方案: a. 角色分级。 区分业务运维、系统运维、网络运维、DBA等多重角色,每个角色都只能接触自己所负责的那票业务服务器,以及相应可执行的权限。 例如,业务运维、网络运维、DBA等都不能执行系统层的rm指令,系统运维也不能执行数据库的指令。 b. 权限分级。 区分一级执行权限、二级执行权限及审批权限。 例如,我们可以实施这样一套方案,一级权限的人发起某个操作请求,有审批权限的审核校验这个命令是否合理,再由二级权限的人去真正实施,这样基本可以防范人为破坏了,除非最后落地时是由同一个人来承担所有角色,或者嫌麻烦绕过这个规范。

分级措施想做到位,就得有足够的人员,公司上市的目的就是通过融资以改善运营状况,该招人就招人吧。

其次,备份、备份、备份

备份的重要性无需多言。

但其实,不只是做了备份就可以的,还有几点要注意的。 a. 除了本地备份,还应该有异地备份,并且要区分本地备份和异地备份责任人的权限,交由不同等级的人管理,防止恶意破坏时,把全套备份都一把火烧了。 b. 除了逻辑备份外,还应该有物理备份,物理备份恢复起来会更快一些。 c. 除了备份,还应该做好备份校验,确保备份的有效性,也就是随机抽取备份集进行恢复测试,确保备份文件的可用性(我多年运维从业经历,仅有一次比较严重的故障,就是栽在没及时进行备份恢复测试校验)。

最后,做好防灾演练

防灾演练的确比较难做,毕竟没几个人敢真的在线上全盘执行"rm -fr /"这样的操作。

不过依然可以模拟各种可能的情况,以及不同情况的组合,再针对这些情况制定不同的预案,然后在开发、测试环境尝试进行演练。

而且要不定期的进行演练,让各个岗位的责任人熟悉整套流程。就像在日本,中小学总是不定期进行防灾演练一样,演练次数多了,真遇到问题时,自然就不慌了,恢复起来也会更快。

最后的最后,多给员工一些必要的关怀和培训吧。还有,作为管理者,对负责后端的运维部门也多给些重视,运维部门一旦出个事故,是真的有可能会搞垮一家上市公司的,这并不是没有前车之鉴。

延伸阅读

  • MySQL数据安全策略
  • 我猜你一定达不到要求的《MySQL安全策略》
  • 简单几招提高MySQL安全性

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

又见删库...

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

又见删库...

0. 事件回顾2020.2.23日 18:56,员工通过VPN登入服务器并实施破坏。2020.2.23日 19时,系统监控报告故障并启动应急方案。2020.2.24日 微盟公司向警方报案。2020.2.25日 7时,恢复部分生产环境和数据,并预计到凌晨0点能完
又见删库...
2018-09-18

linux文件删除后又生成

在Linux系统中,当一个文件被删除后,它并不会立即从磁盘上被完全删除。相反,它只是从文件系统的目录结构中被移除,并标记为可被重用的空间。文件的实际内容仍然存在于磁盘上,直到被系统的内存管理器覆盖或重写。当你删除一个文件后,如果你想恢复它,
2023-09-13

win7流氓软件删除又自动恢复怎么办

使用win7的的小伙伴有没有遇到过这种情况,电脑自动安装了流氓软件,然后你卸载之后过段时间发现它又回来了,win7流氓软件删除又自动恢复怎么办呢?下面小编就来教大家怎么阻止win7自动安装流氓软件,一起来看看吧.方法一:1、首先我们按“wi
2023-07-13

linux文件删除后又生成的原理是什么

在Linux系统中,当你删除一个文件时,实际上是将该文件的索引节点(inode)标记为可重用状态,并且将其所占用的磁盘空间标记为空闲。然而,文件的内容实际上并没有立即被删除,而是被保留在磁盘上。这是因为Linux系统使用了一种称为延迟删除(
2023-09-16

mysql数据库常见基本操作实例分析【创建、查看、修改及删除数据库】

本文实例讲述了mysql数据库常见基本操作。分享给大家供大家参考,具体如下: 本节相关:创建数据库查看数据库修改数据库删除数据库首发时间:2018-02-13 20:47 修改:2018-04-07:考虑到规范化,将所有语法中“关键字”变成
2022-05-22

github中删除仓库

GitHub是全球最大的开源社区,它提供了优秀的版本控制和协作工具,可以方便地进行代码管理和协作开发。在使用GitHub的过程中,我们可能会创建一些不需要的仓库,需要将这些仓库删除。下面将为大家介绍如何在GitHub中删除仓库。打开GitH
2023-10-22

win7打印机删除不了一刷新又重新出现怎么办?

对于那些已经不再使用的打印机,删除是很经常出现的事,但有些时候删除后一刷新或重新开机又出现,像牛皮藓一样反复发作,那么要怎么根治呢?请看本文1、出现打印机删除后,刷新后又重新出现的情况,主要是因为php没有删除彻底,要删除彻底的话必须要连驱
2023-06-15

清华大学Python库安装指南:简单又高效

清华镜像:简便高效的Python库安装指南导语:随着Python在数据科学、人工智能和Web开发等领域的普及,越来越多的开发者和研究者开始使用Python编程语言。而Python库的安装是使用Python开发时必不可少的一步。本文将介绍如
清华大学Python库安装指南:简单又高效
2024-01-16

编程热搜

目录