我的编程空间,编程开发者的网络收藏夹
学习永远不晚

Systemstate Dump分析经典案例(上)

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

Systemstate Dump分析经典案例(上)

前言




本期我们邀请中亦科技的另外一位Oracle专家老K来给大家分享systemstate dump分析的经典案例。后续我们还会有更多技术专家带来更多诚意分享。


老K作为一个长期在数据中心奋战的数据库工程师,看到小y前期的分享,有种跃跃欲试的感觉,也想把我日常遇到的一些有意思的案例拿出来分享讨论,希望我们都能从中获得些许收获,少走弯路。同时本文涉及到很多基础知识,又涉及看似枯燥的trace分析,但老K还是建议大家耐心看完本文。


精彩预告
  • 如何分析cursor:pin S wait on X?

  • 如何分析library cache lock?

  • 如何分析解读systemstate dump?

  • 如何快速应急处理以及收集信息?


温馨提示

温馨提示:该篇为老K诚意之作,篇幅略长,如微信阅读有所不适,可以移步QQ群:227189100下载文本阅读,并同时关注我们的微信号“中亦安图”与我们交流。

Systemstate Dump我们暂且叫SSD


Part 1

问题来了


一个周末的早上,客户来电,两节点RAC数据库其中一个节点夯死。


现象描述:

>> 节点hang死,SYS和普通用户均无法登陆

>> 受影响范围只在其中一个节点,其他节点能正常对外提供服务

>> hang死节点有大量异常等待事件cursor:pin S wait on X以及少量library cache lock。



Part 2

故障处理及信息收集


老K第一反应是让客户快速收集数据库hanganalyze 和SSD,马上通过杀进程的方式重启问题节点数据库,优先恢复数据库服务。

最终,客户在收集完信息发给老K后,重启了问题节点数据库,一切又恢复了正常。


Part 3

知识点扫盲


cursor:pin S wait on X

什么时候会产生这个等待事件?

当一个会话以X模式持有某个cursor(如sql/procedure/function/package body等)的mutex时,如果另一个会话需要以S模式请求该cursor的mutex;一般来说,对cursor进行硬解析时,会以X模式持有cursor的mutex,而对cursor进行软解析时,则会以S模式持有cursor的mutex;


举一个简单的例子,一个会话(SESSION_A)正在解析(硬解析)某一个sql语句(SQL_A),当另一个会话(SESSION_B)同时执行这条sql语句(SQL_A)时(执行前需要对该语句进行软解析),SESSION_B就会等待cursor:pin S wait on X 事件。


如何定位其等待的对象?

该等待事件的P1参数idn,实际上就是sql语句的hash_value,也就是说通过该等待事件的P1参数即可定位等待的实际对象。


如何查找该事件的源头?

在定位了该等待事件所等待的对象后,该对象MUTEX的持有者即为该等待事件的源头。

在trace文件中,可以通过oper EXCL关键字查找到持有者。


library cache lock

什么时候会产生这个等待事件?

当一个会话对library cache中的对象(主要是TABLE /INDEX/CLUSTER/PROCEDURE等)进行修改(通常是指DDL操作)时,会以X模式持有该对象的library cache lock;当一个会话在解析sql需要用到某个对象时,会以S模式请求该对象的library cache lock;


举一个简单的例子,一个会话(SESSION_A)正在对表TAB_A进行DDL操作,另一会话(SESSION_B)开始执行与TAB_A相关的sql语句,那么此时SESSION_B此时会等待library cache lock事件。


如何定位其等待的对象?

该等待事件的P1为handle address即为等待对象在library cache 中的句柄地址,可唯一标示该内存对象。


如何产生该事件的源头?

在定位了该等待事件所等待的对象后,持有该对象的X模式library cache lock的会话即为等待事件的源头。

在trace文件中,可以通过对象的地址关键字和mode=X关键字查找到该等待事件的源头。


那么数据库异常时间内到底发生了什么,我们通过trace入手,还原现场。


Part 4

故障分析


环境介绍:

操作系统 AIX 5.3

数据库 ORACLE 10.2.0.5 两节点RAC

4.1 第一次头脑风暴


现有“情报”

>> RAC系统一个节点夯

>> 数据库中存在大量cursor:pin S wait on X 等待事件和少量library cache lock等待事件

>> 有收集的hanganalyze 信息和SSD  trace文件


这两个等待事件的原理是什么?

出现上述等待事件后系统的表现是什么?

当一个系统出现大量cursor:pin S wait on X 等待事件时,通常原因是由于一个会话的sql硬解析异常,阻塞了这条SQL的软解析,这种情况下,可能的源头就只有一个,只要把源头找到,问题就迎刃而解了。


4.2 入手分析


4.2.1

SSD入手分析

常规处理方法:对于cursor:pin S wait on X等待事件,只需关注其等待对象,是同一个对象还是多个不同对象,如果都是等待在一个对象上,情况相对简单,要找到这个等待的对象,那就需要到SSD的trace中查找关键字’waiting for ‘cursor:pin S wait on X’,结果见下图:


Systemstate Dump分析经典案例(上)


出乎老K的意料,这些等待” cursor:pin S wait on X”的会话并不都在同一个idn上,而是分布在几个不同的idn上。

看起来问题比老K开始想象的要复杂,但是没有关系,以老K处理各种问题的经验来看,复杂问题只不过是多个简单问题的集合而已,需要的只是多一点耐心。


接下来,老K做的就是找到这些cursor对象mutex的持有者,以82d61778为例,选取其中一个正在等待这个对象的会话(sid:598)来分析,见下图


Systemstate Dump分析经典案例(上)


这里需要解释一下

idn 82d61778:表明cursor对象

oper GET_SHRD:表明该会话正在以shared模式请求该mutex

(858, 0):表明该mutex的持有者sid为858


找到了持有者,我们接着来看看sid为858的会话(858会话)在做什么:


Systemstate Dump分析经典案例(上)


上图可以看出858会话也在等待”cursor:pin S wait on X”,而且从等待历史看,858会话的等待也持续了非常长的时间了;同样的方法,我们再来看看858会话请求的mutex又被谁持有了:


Systemstate Dump分析经典案例(上)


我们看到了会话859持有了bbcee4f7的mutex,然后它又在等待”library cache lock”事件。

问题查到这,我们停下来想一想。


4.3.2

第二次头脑风暴


>> 会话598在等待cursor:pin S wait on X,阻塞者sid为 858

>> 会话858在等待cursor:pin S wait on X事件,阻塞者sid为859

>> 会话859在等待library cache lock事件,阻塞者待查

>> library cache lock的阻塞者是谁,很有可能是一个“元凶之一”

>>是不是大量的cursor:pin S wait on X都被library cache lock阻塞,如果是的话问题就变得简单了


如果看到这里你还晕晕的,那么老K建议读者不妨拿出笔画个图,我们就暂且称之为等待链图吧:


Systemstate Dump分析经典案例(上)


4.3.3

继续分析SSD


这里我们暂且先不查“首要嫌疑人”,而是继续梳理等待事件关系,同上分析方法,我们找到trace中各IDN对象的持有者信息,如下:


Systemstate Dump分析经典案例(上)


我们看到,859/858/815等会话目前持有mutex,并且阻塞了其他会话以shared模式获取其持有的mutex;其中859会话为我们刚刚找的等待链的源头,858会话为我们刚刚找到的等待链的中间部分,作为一个mutex的持有者,同时又在等待另一个mutex,那我们再来看看其他会话都在等什么:


Systemstate Dump分析经典案例(上)

Systemstate Dump分析经典案例(上)

Systemstate Dump分析经典案例(上)

老K这里就不把上述所有会话的信息都列出来了,经过确认,各会话的均是在等待”cursor:pin S wait on X”等待事件,这时,我们再来更新一下我们的等待链图:


Systemstate Dump分析经典案例(上)


分析到了这里是不是已经柳暗花明了?前面理不清的大量cursor:pin S wait on X已经理清楚,所有的矛头走指向了sid 859


离真相只差一步了,我们只需要分析library cache lock的源头就能解释整个谜团了,前面老K已经提到了分析library cache lock等待事件的方法了,

下一步只要结合trace文件定位library cache lock的阻塞关系,就能很快定位原因了。

由于篇幅有限,本期分享到这里先告一段落,下期分享继续,看老K如何一步一步由浅入深,分析问题,看看高大上的SSD分析是什么样的。敬请关注下期(未完待续...)


免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

Systemstate Dump分析经典案例(上)

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

Go语言中for循环的经典案例分析

for循环问题,在面试中经常都会被问到,并且在实际业务项目中也经常用到for循环,要是没用好,一不下心就掉坑。本文为大家挑选了几个经典的案例,一块来探讨下,看看如何避免掉坑,多积累积累采坑经验
2023-02-09

慢SQL治理的经典案例分享

菜鸟供应链金融慢sql治理已经有一段时间,自己负责的应用持续很长时间没有慢sql告警,现阶段在推进组内其他成员治理应用慢sql。这里把治理过程中的一些实践拿出来分享下。
sql分页查询2024-12-02

经典系统架构设计案例分析:票务系统深度解析

持有该预订的服务器向所有持有该场次等待用户的服务器发送消息,以便这些服务器可以使所有需要的座位数多于可用座位数的等待用户过期。

Android Zxing生成二维码经典案例分享

本文实例为大家解析了Zxing生成二维码的经典案例,供大家参考,具体内容如下 1、首先呢,先编译 compile ‘com.google.zxing:core:3.2.1' 2、实战public class QRCode { private
2022-06-06

C语言经典顺序表实例分析

这篇“C语言经典顺序表实例分析”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“C语言经典顺序表实例分析”文章吧。1、移除元素题
2023-06-30

Python 中15个递归函数经典案例解析

在本文中,我们将探索15个递归函数的经典案例,从基础到进阶,帮助你理解和掌握递归编程。

AWK的10个经典案例分别是怎么样的

本篇文章给大家分享的是有关AWK的10个经典案例分别是怎么样的,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。awk是Linux系统下一个处理文本的编程语言工具,能用简短的程序处
2023-06-05

Python经典案例之图像漫水填充分割详解

图像分割是将图像分成若干具有独特性质的区域并提取感兴趣目标的技术和过程,这篇文章将详细讲解漫水填充分割应用,感兴趣的小伙伴可以了解一下
2023-01-28

Python实现四个经典小游戏的示例分析

本篇文章给大家分享的是有关Python实现四个经典小游戏的示例分析,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。 一、效果展示1、俄罗斯方块这个应该是玩起来最最简单的了…2、扫
2023-06-22

Python中文分词工具之结巴分词用法实例总结【经典案例】

本文实例讲述了Python中文分词工具之结巴分词用法。分享给大家供大家参考,具体如下: 结巴分词工具的安装及基本用法,前面的文章《Python结巴中文分词工具使用过程中遇到的问题及解决方法》中已经有所描述。这里要说的内容与实际应用更贴近——
2022-06-04

Pytorch深度学习经典卷积神经网络resnet模块实例分析

这篇文章主要介绍“Pytorch深度学习经典卷积神经网络resnet模块实例分析”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“Pytorch深度学习经典卷积神经网络resnet模块实例分析”文章能帮
2023-06-30

C/C++经典算法之约瑟夫问题的示例分析

这篇文章给大家分享的是有关C/C++经典算法之约瑟夫问题的示例分析的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。什么是约瑟夫问题? 约瑟夫问题:n个人围成一圈,初始编号从1~n排列,从约定编号为x的人开始报数,数
2023-06-20

2018上半年软考案例分析题

      2018上半年软考案例分析题有哪些呢?软考里高级资格考试包含了案例分析科目,编程学习网小编为大家汇总了2018上半年软考案例分析真题及答案解析。  以下为2018上半年软考高级资格下午考试案例分析真题,考生可以进入编程学习网在线题库进行估分查看参考答案。  2018上半年系统规划与管理
2018上半年软考案例分析题
2024-04-18

编程热搜

目录