我的编程空间,编程开发者的网络收藏夹
学习永远不晚

python内存泄漏排查技巧总结

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

python内存泄漏排查技巧总结

首先搞清楚了本次问题的现象:

  • 1. 服务在13号上线过一次,而从23号开始,出现内存不断攀升问题,达到预警值重启实例后,攀升速度反而更快。
  • 2. 服务分别部署在了A、B 2种芯片上,但除模型推理外,几乎所有的预处理、后处理共享一套代码。而B芯片出现内存泄漏警告,A芯片未出现任何异常。

思路一:研究新旧源码及二方库依赖差异

根据以上两个条件,首先想到的是13号的更新引入的问题,而更新可能来自两个方面:

  • 自研代码
  • 二方依赖代码

从上述两个角度出发:

  • 一方面,分别用Git历史信息和BeyondCompare工具对比了两个版本的源码,并重点走读了下A、B两款芯片代码单独处理的部分,均未发现任何异常。
  • 另一方面,通过pip list命令对比两个镜像包中的二方包,发现仅有pytz时区工具依赖的版本有变化。

经过研究分析,认为此包导致的内存泄漏的可能性不大,因此暂且放下

至此,通过研究新旧版本源码变化找出内存泄漏问题这条路,似乎有点走不下去了。

思路二:监测新旧版本内存变化差异

目前python常用的内存检测工具有pymplerobjgraphtracemalloc 等。

首先,通过objgraph工具,对新旧服务中的TOP50变量类型进行了观察统计

objraph常用命令如下:


# 全局类型数量
objgraph.show_most_common_types(limit=50)

# 增量变化
objgraph.show_growth(limit=30)


这里为了更好的观测变化曲线,我简单做了个封装,使数据直接输出到了csv文件以便观察。


stats = objgraph.most_common_types(limit=50)
stats_path = "./types_stats.csv"
tmp_dict = dict(stats)
req_time = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime())
tmp_dict['req_time'] = req_time
df = pd.DataFrame.from_dict(tmp_dict, orient='index').T

if os.path.exists(stats_path):
    df.to_csv(stats_path, mode='a', header=True, index=False)
else:
    df.to_csv(stats_path, index=False)


如下图所示,用一批图片在新旧两个版本上跑了1个小时,一切稳如老狗,各类型的数量没有一丝波澜。

此时,想到自己一般在转测或上线前都会将一批异常格式的图片拿来做个边界验证。

虽然这些异常,测试同学上线前肯定都已经验证过了,但死马当成活马医就顺手拿来测了一下。

平静数据就此被打破了,如下图红框所示:dictfunctionmethodtupletraceback等重要类型的数量开始不断攀升。

而此时镜像内存亦不断增加且毫无收敛迹象。

由此,虽无法确认是否为线上问题,但至少定位出了一个bug。而此时回头检查日志,发现了一个奇怪的现象:
正常情况下特殊图片导致的异常,日志应该输出如下信息,即check_image_type方法在异常栈中只会打印一次。

但现状是check_image_type方法循环重复打印了多次,且重复次数随着测试次数在一起变多。

重新研究了这块儿的异常处理代码。

异常声明如下:

抛异常代码如下:

问题所在

思考后大概想清楚了问题根源:

这里每个异常实例相当于被定义成了一个全局变量,而在抛异常的时候,抛出的也正是这个全局变量。当此全局变量被压入异常栈处理完成之后,也并不会被回收。

因此随着错误格式图片调用的不断增多,异常栈中的信息也会不断增多。而且由于异常中还包含着请求图片信息,因此内存会呈MB级别的增加。

但这部分代码上线已久,线上如果真的也是这里导致的问题,为何之前没有任何问题,而且为何在A芯片上也没有出现任何问题?

带着以上两个疑问,我们做了两个验证:

首先,确认了之前的版本以及A芯片上同样会出现此问题。

其次,我们查看了线上的调用记录,发现最近刚好新接入了一个客户,而且出现了大量使用类似问题的图片调用某局点(该局点大部分为B芯片)服务的现象。我们找了些线上实例,从日志中也观测到了同样的现象。

由此,以上疑问基本得到了解释,修复此bug后,内存溢出问题不再出现。

进阶思路

讲道理,问题解决到这个地步似乎可以收工了。但我问了自己一个问题,如果当初没有打印这一行日志,或者开发人员偷懒没有把异常栈全部打出来,那应该如何去定位?

带着这样的问题我继续研究了下objgraphpympler 工具。

前文已经定位到了在异常图片情况下会出现内存泄漏,因此重点来看下此时有哪些异样情况:

通过如下命令,我们可以看到每次异常出现时,内存中都增加了哪些变量以及增加的内存情况。

1.使用objgraph工具


objgraph.show_growth(limit=20)

2.使用pympler工具


from pympler import tracker
tr = tracker.SummaryTracker()
tr.print_diff()

通过如下代码,可以打印出这些新增变量来自哪些引用,以便进一步分析。


gth = objgraph.growth(limit=20)
for gt in gth:
    logger.info("growth type:%s, count:%s, growth:%s" % (gt[0], gt[1], gt[2]))
    if gt[2] > 100 or gt[1] > 300:
        continue
    objgraph.show_backrefs(objgraph.by_type(gt[0])[0], max_depth=10, too_many=5,
                           filename="./dots/%s_backrefs.dot" % gt[0])
    objgraph.show_refs(objgraph.by_type(gt[0])[0], max_depth=10, too_many=5,
                       filename="./dots/%s_refs.dot" % gt[0])
    objgraph.show_chain(
        objgraph.find_backref_chain(objgraph.by_type(gt[0])[0], objgraph.is_proper_module),
        filename="./dots/%s_chain.dot" % gt[0]
    )


通过graphviz的dot工具,对上面生产的graph格式数据转换成如下图片:


dot -Tpng xxx.dot -o xxx.png


这里,由于dictlistframetuplemethod等基本类型数量太多,观测较难,因此这里先做了过滤。

内存新增的ImageReqWrapper的调用链

内存新增的traceback的调用链:

虽然带着前面的先验知识,使我们很自然的就关注到了traceback和其对应的IMAGE_FORMAT_EXCEPTION异常。
但通过思考为何上面这些本应在服务调用结束后就被回收的变量却没有被回收,尤其是所有的traceback变量在被IMAGE_FORMAT_EXCEPTION异常调用后就无法回收等这些现象;同时再做一些小实验,相信很快就能定位到问题根源。

另,关于 python3中 缓存Exception导致的内存泄漏问题,我们可以看看这篇文章:https://www.jb51.net/article/231759.htm

至此,我们可以得出结论如下:

由于抛出的异常无法回收,导致对应的异常栈、请求体等变量都无法被回收,而请求体中由于包含图片信息因此每次这类请求都会导致MB级别的内存泄漏。

另外,研究过程中还发现python3自带了一个内存分析工具tracemalloc,通过如下代码就可以观察代码行与内存之间的关系,虽然可能未必精确,但也能大概提供一些线索。


import tracemalloc

tracemalloc.start(25)
snapshot = tracemalloc.take_snapshot()
global snapshot
gc.collect()
snapshot1 = tracemalloc.take_snapshot()
top_stats = snapshot1.compare_to(snapshot, 'lineno')
logger.warning("[ Top 20 differences ]")
for stat in top_stats[:20]:
    if stat.size_diff < 0:
        continue
    logger.warning(stat)
snapshot = tracemalloc.take_snapshot()

 到此这篇关于python内存泄漏排查技巧总结的文章就介绍到这了,更多相关python内存泄漏排查技巧内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

参考文章:

https://testerhome.com/articles/19870?order_by=created_at&
https://blog.51cto.com/u_3423936/3019476
https://segmentfault.com/a/1190000038277797
https://www.cnblogs.com/zzbj/p/13532156.html
https://drmingdrmer.github.io/tech/programming/2017/05/06/python-mem.html
https://zhuanlan.zhihu.com/p/38600861

 

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

python内存泄漏排查技巧总结

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

【经验总结 】Node怎么排查内存泄漏?思路分享

Node怎么排查内存泄漏?下面本篇文章就来给大家整理总结一下Node内存泄漏排查经验,希望对大家有所帮助!
2023-05-14

Node如何排查内存泄漏

这篇文章主要讲解了“Node如何排查内存泄漏”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Node如何排查内存泄漏”吧!在 Nodejs 服务端开发的场景中,内存泄漏 绝对是最令人头疼的问题
2023-07-05

linux内存泄漏怎么排查

要排查Linux中的内存泄漏,可以采取以下步骤:监视和跟踪内存使用:使用工具如top、htop、vmstat等监视系统的内存使用情况。注意查看可用内存、缓存、交换空间等指标,以确定是否存在内存泄漏的迹象。分析进程内存使用情况:使用工具如ps
linux内存泄漏怎么排查
2024-02-29

jvm内存泄漏排查流程

1.查询cpu消耗最大的进程jps 先找出来那些java进程top 命令查看那些java进程消耗的cpu比较大2.查找占用内存最大的线程1.命令:ps p pid -L -o pcpu,pid,tid,time,tname,cmd%CPU PID TI
jvm内存泄漏排查流程
2019-02-04

怎么排查Javascript内存泄漏

这篇文章主要讲解了“怎么排查Javascript内存泄漏”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“怎么排查Javascript内存泄漏”吧!如何判断我的应用发生了内存泄漏为了证明螃蟹的听
2023-07-02

java内存泄漏怎么排查

Java内存泄漏是指在程序运行过程中,不再使用的对象仍然占用着内存空间,导致内存无法被回收。以下是一些常见的排查内存泄漏的方法:1. 使用内存分析工具:可以使用一些专业的内存分析工具,如Eclipse Memory Analyzer(MAT
2023-08-31

golang内存泄漏怎么排查

在 Go 语言中,内存泄漏通常是由于不正确地使用或管理指针和引用导致的。以下是一些排查内存泄漏的常用方法:1. 使用 go build -race 或 go run -race 命令编译和运行程序,启用竞争检查器(race detector
2023-10-21

Android内存泄漏排查利器LeakCanary

本文为大家分享了Android内存泄漏排查利器,供大家参考,具体内容如下 开源地址:https://github.com/square/leakcanary 在 build.gralde 里加上依赖, 然后sync 一下, 添加内容如下de
2022-06-06

Java内存泄漏的排查分析

本篇内容介绍了“Java内存泄漏的排查分析”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!一、由来前些日子小组内安排值班,轮流看顾我们的服务,
2023-06-02

java堆外内存泄漏如何排查

在Java中,堆外内存泄漏通常是由于未正确释放使用了堆外内存的资源所导致的。下面是一些排查堆外内存泄漏的常见方法:1. 使用JVM工具进行监测:可以使用JVM提供的命令行工具如jmap、jstat等来监测堆外内存的使用情况,例如使用jmap
2023-08-24

java堆外内存泄漏怎么排查

在Java中,堆外内存通常是通过直接内存(Direct Memory)分配的。直接内存是一种不受Java堆内存管理的内存分配方式,它是通过调用系统的本地方法进行分配和释放的。当出现堆外内存泄漏时,可以使用以下方法进行排查:检查代码中直接内
2023-10-27

C++ 中内存泄漏的调试技巧

c++++ 中内存泄漏调试技巧包括:使用调试器(visual studio 或 gdb)设置断点和检查变量。使用 valgrind 等内存调试器分析内存使用情况并检测泄漏。手动管理内存分配和回收,避免环形引用,使用 weak_ptr 等智能
C++ 中内存泄漏的调试技巧
2024-05-04

GoLang内存泄漏原因排查详解

内存溢出是指程序在申请内存时,没有足够的内存空间供其使用,简单点说就是你要求分配的内存超出了系统能给你的,系统不能满足需求,于是产生溢出出现outofmemory异常
2022-12-15

Java内存泄漏实例排查分析

这篇文章主要介绍“Java内存泄漏实例排查分析”,在日常操作中,相信很多人在Java内存泄漏实例排查分析问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Java内存泄漏实例排查分析”的疑惑有所帮助!接下来,请跟
2023-06-16

linux内存泄漏问题怎么排查

要排查Linux中的内存泄漏问题,可以按照以下步骤进行:1. 监控内存使用情况:使用工具如top、free或htop等监控系统的实时内存使用情况,观察内存占用是否逐渐增加,并查看哪个进程占用了大量内存。2. 检查系统日志:查看系统日志文件(
2023-10-21

Android 内存泄漏的几种可能总结

Java是垃圾回收语言的一种,其优点是开发者无需特意管理内存分配,降低了应用由于局部故障(segmentation fault)导致崩溃,同时防止未释放的内存把堆栈(heap)挤爆的可能,所以写出来的代码更为安全。 不幸的是,在Java中仍
2022-06-06

Android 内存泄漏案例分析总结(Handler)

在Android开发开发中,操作不当很容易引起内存泄漏,这里主要记录下平时遇到问题,包括:静态变量(也包含集合)、非静态的内部类、Handler、监听器,尤其是 Handler 在开发中要格外的注意。1、静态变量public class L
2022-06-06

防止 PHP 代码内存泄漏的技巧

在上一篇文章中,我们介绍了PHP 中内存泄漏的一些常见原因,并提供可能导致它们的代码示例。这里我们针对那几个示例,来介绍一下如何防止内存泄漏。1.避免循环引用当两个或多个对象相互引用时,就会发生循环引用。 如果这些对象处理不当,PHP 的垃
防止 PHP 代码内存泄漏的技巧
2024-02-27

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录