我的编程空间,编程开发者的网络收藏夹
学习永远不晚

如何使用分区处理MySQL的亿级数据优化

短信预约 信息系统项目管理师 报名、考试、查分时间动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

如何使用分区处理MySQL的亿级数据优化

mysql在查询上千万级数据的时候,通过索引可以解决大部分查询优化问题。但是在处理上亿数据的时候,索引就不那么友好了。

数据表(日志)是这样的:

  • 表大小:1T,约24亿行;
  • 表分区:按时间分区,每个月为一个分区,一个分区约2-3亿行数据(40-70G左右)。

由于数据不需要全量处理,经过与需求方讨论后,我们按时间段抽样一部分数据,比如抽样一个月的数据,约3.5亿行。
数据处理的思路:

1)建表引擎选择Innodb。由于数据是按月分区的,我们将该月分区的数据单独copy出来,源表为myisam引擎,因我们可能需要过滤部分数据,涉及到筛选的字段又没有索引,使用myisam引擎加索引的速度会比较慢;
2)按日分区。将copy出来的表加好索引后(约2-4个小时),过滤掉无用的数据,同时再次新生成一张表,抽取json中需要的字段,并对该表按日分区。


CREATE TABLE `tb_name` (
  `id_`,
  ...,
  KEY `idx_1` (`create_user_`) 
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='应用日志'
PARTITION BY RANGE(to_days(log_time_)) (
    PARTITION p1231 VALUES LESS THAN (737425),
    PARTITION p0101 VALUES LESS THAN (737426),
    PARTITION p0102 VALUES LESS THAN (737427),
    PARTITION p0103 VALUES LESS THAN (737428),
    PARTITION p0104 VALUES LESS THAN (737429),
......
);

3)对上面生成的表按每日进行聚合或者其他操作,并将结果存储到临时表中,尽量使用存储过程加工数据,由于加工相对复杂而且耗时较多(跑一次存储过程需要大概1-2小时),因此循环调用存储过程时应记录操作时间和执行过程中的参数等;


delimiter $$
create procedure proc_name(param varchar(50))
begin
 declare start_date date;
    declare end_date date;
    set start_date = '2018-12-31';
    set end_date = '2019-02-01';
    
    start transaction;
 truncate tmp_talbe;
 commit;
    
    while start_date < end_date do
  set @partition_name = date_format(start_date, '%m%d');
        set @start_time = now(); -- 记录当前分区操作起始时间
        
  start transaction;
  set @sqlstr = concat(
   "insert into tmp_talbe",
   "select field_names ",
            "from tb_name partition(p", @partition_name,") t ",
            "where conditions;"
   );
  -- select @sqlstr;
  prepare stmt from @sqlstr;  
  execute stmt;
  deallocate prepare stmt;
  commit;
        
        -- 插入日志
        set @finish_time = now(); -- 操作结束时间
        insert into oprerate_log values(param, @partition_name, @start_time, @finish_time, timestampdiff(second, @start_time, @finish_time));
        
  set start_date = date_add(start_date, interval 1 day);
    end while;
end
$$
delimiter ;

4)对上述生成的结果进行整理加工。

总的来说,处理过程相对繁琐,而且产生了很多中间表,对关键步骤还需要记录操作流程的元数据,这对SQL处理的要求会比较高,因此不建议使用MySQL处理这种任务(除非迫不得已),如果能将能处理过程放在大数据平台上处理,速度会更快,而且元数据管理会相对专业。

到此这篇关于如何使用分区处理MySQL的亿级数据优化的文章就介绍到这了,更多相关MySQL 亿级数据优化内容请搜索自学编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持自学编程网!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

如何使用分区处理MySQL的亿级数据优化

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

如何使用分区处理MySQL的亿级数据优化

mysql在查询上千万级数据的时候,通过索引可以解决大部分查询优化问题。但是在处理上亿数据的时候,索引就不那么友好了。 数据表(日志)是这样的:表大小:1T,约24亿行;表分区:按时间分区,每个月为一个分区,一个分区约2-3亿行数据(40-
2022-05-11

浅谈MySQL 亿级数据分页的优化

目录背景分析数据模拟1、创建两个表:员工表和部门表2、创建两个函数:生成随机字符串和随机编号3、编写存储过程,模拟500W的员工数据4、编写存储过程,模拟120的部门数据5、建立关键字段的索引,这边是跑完数据之后再建索引,会导致建索引耗时长
2022-05-27

如何使用php函数来优化大数据处理?

在当今大数据时代,处理海量数据已成为一项重要任务。PHP 是一种强大的服务器端编程语言,它提供了许多用于数据处理的函数和工具。本文将介绍一些优化大数据处理的方法,并提供具体的 PHP 代码示例。使用合适的数据结构:在处理大数据时,选择合适的
2023-10-21

如何使用队列优化PHP与MySQL的数据传输和处理流程?

在PHP与MySQL开发过程中,数据传输和处理是常见的操作。然而,随着数据量的增加和并发操作的增多,传统的数据传输和处理方式可能会导致性能问题。为了解决这个问题,队列成为一种有效的优化手段。本文将介绍如何使用队列来优化PHP与MySQL的数
2023-10-21

如何实现MySQL底层优化:数据统计和分析的应用与优化

如何实现MySQL底层优化:数据统计和分析的应用与优化随着互联网的迅猛发展,数据对于企业的重要性越来越突出。而MySQL作为一种常用的开源关系型数据库管理系统,其底层优化对于数据统计和分析应用的性能至关重要。本文将重点介绍如何实现MySQL
如何实现MySQL底层优化:数据统计和分析的应用与优化
2023-11-08

如何实现MySQL底层优化:表分区的应用和优势

如何实现MySQL底层优化:表分区的应用和优势随着大数据时代的到来,数据库的性能需求也越来越高。MySQL作为常用的关系型数据库,为了满足大规模数据存储和高并发访问的需求,提供了表分区的功能。本文将介绍如何实现MySQL底层优化中的表分区,
如何实现MySQL底层优化:表分区的应用和优势
2023-11-08

C++技术中的大数据处理:如何使用内存数据库优化大数据性能?

在大数据处理中,采用内存数据库(如 aerospike)可以提升 c++++ 应用程序的性能,因为它将数据存储在计算机内存中,消除了磁盘 i/o 瓶颈,显著提高了数据访问速度。实战案例表明,使用内存数据库的查询速度比使用硬盘数据库快几个数量
C++技术中的大数据处理:如何使用内存数据库优化大数据性能?
2024-05-12

React 中使用 RxJS 优化数据流的处理方案

这篇文章主要为大家介绍了React 中使用 RxJS 优化数据流的处理方案示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
2023-02-17

编程热搜

目录