pytorch 运行一段时间后出现GPU OOM的问题

2024-04-02 19:55

短信预约 -IT技能 免费直播动态提醒

pytorch的dataloader会将数据传到GPU上，这个过程GPU的mem占用会逐渐增加，为了避免GPUmen被无用的数据占用，可以在每个step后用del删除一些变量，也可以使用torch.cuda.empty_cache()释放显存：


del targets, input_k, input_mask
torch.cuda.empty_cache()

这时能观察到GPU的显存一直在动态变化。

但是上述方式不是一个根本的解决方案，因为他受到峰值的影响很大。比如某个batch的数据量明显大于其他batch，可能模型处理该batch时显存会不够用，这也会导致OOM，虽然其他的batch都能顺利执行。

显存的占用跟这几个因素相关：

模型参数量

batch size

一个batch的数据 size

通常我们不希望改变模型参数量，所以只能通过动态调整batch-size，使得一个batch的数据 size不会导致显存OOM：


ilen = int(sorted_data[start][1]['input'][0]['shape'][0])
olen = int(sorted_data[start][1]['output'][0]['shape'][0])
# if ilen = 1000 and max_length_in = 800
# then b = batchsize / 2
# and max(1, .) avoids batchsize = 0
# 太长的句子会被动态改变bsz，单独成一个batch，否则padding的部分就太多了，数据量太大，OOM
factor = max(int(ilen / max_length_in), int(olen / max_length_out))
b = max(1, int(batch_size / (1 + factor)))
#b = batch_size
end = min(len(sorted_data), start + b)
minibatch.append(sorted_data[start:end])
if end == len(sorted_data):
    break
start = end

此外，如何选择一个合适的batchsize也是个很重要的问题，我们可以先对所有数据按照大小（长短）排好序（降序），不进行shuffle，按照64,32,16依次尝试bsz，如果模型在执行第一个batch的时候没出现OOM，那么以后一定也不会出现OOM（因为降序排列了数据，所以前面的batch的数据size最大）。

还有以下问题

pytorch increasing cuda memory OOM 问题

改了点model 的计算方式，然后就 OOM 了，调小了 batch_size,然后发现发现是模型每次迭代都会动态增长 CUDA MEMORY, 在排除了 python code 中的潜在内存溢出问题之后，基本可以把问题定在 pytorch 的图计算问题上了，说明每次迭代都重新生成了一张计算图，然后都保存着在，就 OOM 了。

参考

CUDA memory continuously increases when net(images) called in every iteration

Understanding graphs and state

说是会生成多个计算图：


loss = SomeLossFunction(out) + SomeLossFunction(out)

准备用 sum来避免多次生成计算图的问题：


loss = Variable(torch.sum(torch.cat([loss1, loss2], 0)))

然而，调着调着就好了，和报错前的 code 没太大差别。估计的原因是在pycharm 远程连接服务器的时候 code 的保存版本差异问题，这个也需要解决一下。

还有个多次迭代再计算梯度的问题，类似于 caffe中的iter_size,这个再仔细看看。

以上为个人经验，希望能给大家一个参考，也希望大家多多支持编程网。

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

阅读原文内容投诉

pytorch 运行一段时间后出现GPU OOM的问题

下载Word文档到电脑，方便收藏和打印～

下载Word文档

pytorch 运行一段时间后出现GPU OOM的问题

显存的占用跟这几个因素相关：

pytorch increasing cuda memory OOM 问题

pytorch 运行一段时间后出现GPU OOM的问题

相关文章

猜你喜欢

pytorch 运行一段时间后出现GPU OOM的问题

Tomcat运行一段时间后访问变慢的原因是什么

SQLServer 错误 17884 在最后 %d 秒内，没有一个工作线程拾取了分配给节点 %d 上的进程的新查询。查询被阻塞或长时间运行可能导致出现此情况，并且可能会延长客户端响应时间。请使用

热门标签

编程热搜

Python 学习之路 - Python

chatgpt的中文全称是什么

C/C++中extern函数使用详解

C/C++可变参数的使用

css样式文件该放在哪里

php中数组下标必须是连续的吗

Python 3 教程

Python pip包管理

ubuntu如何重新编译内核

改善Java代码之慎用java动态编译

编程资源站

2021年下半年软考高级信息系统项目管理师高频考点精选资料

2021下半年软考高级信息系统技术知识点记忆口诀精选资料

2021下半年软考《信息系统项目管理师》考试真题及答案精选资料

2021下半年软考高级考试备考攻略精选资料

2021年软考高级《信息系统项目管理师》巩固练习题汇总精选资料

2021下半年软考高级信息系统项目管理师30个易考知识点汇总精选资料

2021下半年软考高级知识点这样记，还担心记不住吗精选资料

2021年下半年软考高级考试重点汇总精选资料

2021下半年软考高级信息系统项目管理师计算公式汇总精选资料

2021年下半年软考高级《信息系统项目管理师》模拟试题精选资料

信息系统项目管理师选择题每日一练（2024）历年试题

2023年下半年信息系统项目管理师综合知识真题演练历年试题

目录

pytorch 运行一段时间后出现GPU OOM的问题

显存的占用跟这几个因素相关：

pytorch increasing cuda memory OOM 问题

pytorch 运行一段时间后出现GPU OOM的问题

相关文章

猜你喜欢

pytorch 运行一段时间后出现GPU OOM的问题

Tomcat运行一段时间后访问变慢的原因是什么

SQLServer 错误 17884 在最后 %d 秒内，没有一个工作线程拾取了分配给节点 %d 上的进程的新查询。 查询被阻塞或长时间运行可能导致出现此情况，并且可能会延长客户端响应时间。 请使用

热门标签

编程热搜

编程资源站

目录

感谢您的提交，我们服务专员将在30分钟内给您回复

SQLServer 错误 17884 在最后 %d 秒内，没有一个工作线程拾取了分配给节点 %d 上的进程的新查询。查询被阻塞或长时间运行可能导致出现此情况，并且可能会延长客户端响应时间。请使用