我的编程空间,编程开发者的网络收藏夹
学习永远不晚
位置:首页-资讯-运维

弄明白DOUBLE BUFFERING对PG数据库的运维与优化有什么意义

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

弄明白DOUBLE BUFFERING对PG数据库的运维与优化有什么意义

  对于读操作来说,就涉及到我们的数据库共享缓冲池如何设计的问题了。比较新的MySQL版本在支持DIO的操作系统上默认使用DIO读取文件,因此设置一个足够大的innodb buffer就可以了,采用默认的配置就不存在PG类似Double Buffering的问题。PG数据库使用者对此争论较多,PG官方文档也是建议shared_buffers不用太大,给OS留下足够的内存用于优化IO。

  ​昨天的案例讲了因为PG的DOUBLE BUFFERING导致的SQL执行忽快忽慢的问题,有些朋友在问是不是Oracle之外的很多数据库都是用类似的方式读取文件,这种Double Buffering技术是不是很落后,是不是必须加以改进。实际上,只要是使用文件系统,并且在读数据时没有采用DIO的数据库都会存在DOUBLE BUFFERING的问题,早期的Oracle也存在类似问题。

  上图比较清晰的说明了DOUBLE BUFFERING问题,对于写的情况,因为先写入CACHE,再由OS把CACHE写入磁盘,中间会有一些性能损失,不过对于现代的数据库来说,只有REDO/WAL是需要强一致性写入的,数据文件的写入不会阻塞数据库的读写访问,因此这种性能损失是可以接受的。并且现代硬件上,IO延时已经极大的降低了,这点损失也没有太大的问题。

  对于读操作来说,就涉及到我们的数据库共享缓冲池如何设计的问题了。比较新的MySQL版本在支持DIO的操作系统上默认使用DIO读取文件,因此设置一个足够大的innodb buffer就可以了,采用默认的配置就不存在PG类似Double Buffering的问题。PG数据库使用者对此争论较多,PG官方文档也是建议shared_buffers不用太大,给OS留下足够的内存用于优化IO。

  为什么PG还会坚持这样模式来实现数据库缓冲呢?实际上维护一个极大的共享缓冲区,保持并发读写性能也是十分难做好的。对于不同的应用场景,缓冲的策略也会不同。如果经常由一些大表的扫描访问,往往数据不会重复被访问,这种情况如果加载到共享缓冲中再去访问,会加大共享缓冲的闩锁(对于PG来说就是轻量级锁)争用,引起数据库的性能问题,加大热块冲突的延时,这样就得不偿失了。Oracle在对待此类问题,也采用了直接路径读这样的方式来解决。

  目前使用MySQL的大型数据库比较少,即使有些MySQL库的总容量也达到数个TB,但是实际上被经常访问的数据也不过几百M,因此不太容易碰到共享缓冲性能带来的总体性能问题。而在一些比较大的PG数据库上,并发读写较高场景下,我们已经遇到过不少LWLOCK带来的性能问题,我以前的文章中也提到过从算法上看,PG的shared buffers算法效率会略低于Oracle的DB CACHE,这些现象似乎也是对此的一种佐证。

  在某些场景下,不把shared buffers设置的过大,使用OS FILE CACHE来作为辅助,也是一种优化策略,就像前几天讨论过的数据库可以把一些复杂的不太容易做好的事情交给OS去做。有些应用系统中给shared buffer配置了绝大多数的OS内存效果也不错,但是这种模式下访问冷数据的性能会打折扣。通过pgfincore这样的工具来做预热可以大幅度提升某些定期的分析任务对大表扫描的执行效率。

  今天不讨论shared buffer配置策略的问题,这方面我以前已经写过几篇文章探讨了,有兴趣的朋友可以去公众号上搜索一下。今天我们讨论一个因为double buffering机制导致的几个PG指标指示性失效的问题。在PG的shared buffer的不同配置策略下,有些情况下的物理读可能并不是真正的物理读,而是“假物理读”,因此针对PG数据库,共享缓冲池命中率和物理读这两个指标是会存在比较严重的误解的。

  在Oracle数据库中,我们会针对物理读的突然增加产生一个性能告警。因为这可能意味着某些SQL执行存在异常,或者IO负载突然增加,可能会引发一些不确定的数据库性能问题。

  这个故障模型在D-SMART里也被拷贝到了PG数据库中,但是这个故障模型的告警,在PG数据库中可能没有在Oracle上那么有效。因为不同的shared buffers配置策略可能会导致某些时候产生的物理读实际上并不是真正的从存储设备上读取数据,而是从FILE CACHE中读取数据。很可能这种突发的物理读增加并不是一个需要告警的故障,而是一种被预先设计好的正常现象,如果不分青红皂白的去告警就会不准确了。作为一个通用的运维工具产品,我们又无法预知用户的应用场景与设计理念,因此这个故障模型必须做改造。

  数据库缓冲命中率指标也存在类似问题,某些场景中,数据库缓冲命中率低有可能是PG数据库设定好的场景,无需告警。我们如果还是模仿Oracle的方式来预警则可能会产生大量的误报。如果新增的“数据库物理读”大部分都产生了操作系统的物理读,那么才需要进行告警,而如果新增的“数据库物理读”并没有大幅增加OS的物理IO,那么这种现象可能是数据库参数配置的正常现象,应该被自动排除。

  针对数据库缓冲区命中率的理解也是如此,当数据库缓冲区命中率较低的时候,我们没有必要直接报警,而是要看操作系统IO总量是否大幅度增加,如果操作系统IO总量没有明显增加,那么这种数据库缓冲命中率的下降应该是正常的。

  这两个在Oracle中可以使用的故障模型必须进行优化,加入实际物理读大幅增加的条件。但是如何描述大幅增加呢?这里就需要用到异常检测算法了。

  在D-SMART中,1000105这个指标的含义是关键指标异常,这是一个复合指标,是针对基础指标进行异常检测生成的。比如30000100是操作系统的IOPS指标,当这个指标出现大幅上升的时候,就意味着IO异常增长。因此在那两个故障模型中,可以加入1000105[30000100]=4这个规则,从而让告警更为精准。​

  来源: 白鳝的洞穴

  >>>>>>点击进入系统运维专题

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

弄明白DOUBLE BUFFERING对PG数据库的运维与优化有什么意义

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

弄明白DOUBLE BUFFERING对PG数据库的运维与优化有什么意义

对于读操作来说,就涉及到我们的数据库共享缓冲池如何设计的问题了。比较新的MySQL版本在支持DIO的操作系统上默认使用DIO读取文件,因此设置一个足够大的innodb buffer就可以了,采用默认的配置就不存在PG类似Double Buffering的问题。PG数据库使用者对此争论较多,PG官方文档也是建议shared_buffers不用太大,给OS留下足够的内存用于优化IO。
弄明白DOUBLE BUFFERING对PG数据库的运维与优化有什么意义
2024-04-24

编程热搜

  • 人工智能你要知道的那些事
    编程学习网:早在1g时代我们只能接打电话。2g时代可以打电话发短信,玩早期的qq,但网络十分不稳定。3g时代带给我们很大的改变就是宽带上网,视频通话,看视频,听歌玩游戏。那时的人们认为4g无用,认为不会有什么改变,但当4g出来时我们才发现这是一次质的飞跃。
    人工智能你要知道的那些事
  • 人工智能无人机管制到底有多难?
    编程学习网:近日,一段“重庆网红列车遭无人机撞击逼停”的视频,在网络热传。
    人工智能无人机管制到底有多难?
  • 人工智能与人类
    欢迎各位阅读本篇,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。本篇文章讲述了人工智能与人类,编程学习网教育平台提醒各位:本篇文章纯干货~因此大家一定要认真阅读本篇文章哦!
    人工智能与人类
  • 两小时 Elasticsearch 性能优化,直接把慢查询干团灭了……
    公共集群的机器负载分布不均衡的问题,业务的查询和流量不可控等各种各样的问题,要节省机器资源就一定会面对这种各种各样的问题,除非土豪式做法,每个业务都拥有自己的机器资源,这里面有很多很多颇具技术挑战的事情。
    两小时 Elasticsearch 性能优化,直接把慢查询干团灭了……
  • 关于OpenStack的架构详细讲解
    欢迎各位阅读本篇文章,OpenStack是一个开源的云计算管理平台项目,由几个主要的组件组合起来完成具体工作。本篇文章讲述了关于OpenStack的架构详细讲解,编程学习网教育平台提醒各位:本篇文章纯干货~因此大家一定要认真阅读本篇文章哦!
    关于OpenStack的架构详细讲解
  • AI &神经网络
    欢迎各位阅读本篇,本篇文章讲述了AI &神经网络,人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。神经网络内容丰富,反映了当前国内外该领域的最新研究成果和动向,编程学习网教育平台提醒各位:本篇文章纯干货~因此大家一定要认真阅读本篇文章哦!
    AI &神经网络
  • 人工智能对于网络安全的优缺点
    编程学习网:如今,产生的数据比以往任何时候都要多。由于数据分析工具的发展,各行各业的组织都更加重视大数据的收集和存储。
    人工智能对于网络安全的优缺点
  • Bash 初学者系列 7:bash 中的条件语句(if else)
    今天我们介绍一下如何在 bash 中使用条件语句。
    Bash 初学者系列 7:bash 中的条件语句(if else)
  • 人工智能机器学习的重要趋势是什么?
    编程学习网:在竞争日益激烈的技术市场中,从高科技初创公司到全球跨国公司都将人工智能视为关键竞争优势。但是,人工智能行业发展如此之快,以至于很难跟踪最新的研究突破和成就,甚至很难应用科学成果来实现业务成果。
    人工智能机器学习的重要趋势是什么?
  • 人工智能为什么会觉得Matplotlib用起来困难?
    编程学习网:Matplotlib是一个流行的Python库,可以很容易地用于创建数据可视化。
    人工智能为什么会觉得Matplotlib用起来困难?

目录