YOLOv5训练速度慢的一些解决方法

2023-09-06 06:09

短信预约 -IT技能 免费直播动态提醒

博主电脑配置是AMD R5 3600，Nvidia RTX3060 12G，16G 3200MHz内存，训练数据集是自建数据集，大约1200张图片，3个检测目标。

训练YOLOv5-5.0版本的模型参数设置，模型是yolov5s，epoch 150（如果想要更好的mAP@0.5:0.95指标可以设置的更大，博主这个收敛的太快了就没设太多），batchsize 32或者64，imgsize 640,640，其他均为默认。

在最初训练模型的时候训练一次epoch大约需要3分钟，而且不管怎么设置参数，训练时间都不会改变太多，都在3分钟左右，博主期初是因为自己没用GPU跑，但是显存是实实在在的吃满了，但利率用始终在0%和4%之间波动，大多数还是在0%，博主百思不得其解，百度了许多方法都没有用，看了大部分博主的文章，然后看了看运行时候的内存，CPU和GPU，发现CPU使用率不高，但是内存和显存占用很高，那么也就排除了在用CPU跑模型的情况，思来想去大概是出在数据读取上。下面来介绍一些训练模型速度慢可能的原因和解决方法：

1.GPU太差

博主之前用的自己的GTX960m的确跑不起来，如果自己显卡太老，显存太低，要么降低batchsize和worker，还有imgsize，要么就换一张显卡。三个参数的设置在train.py的设置代码如图

2.没用到GPU，完全是CPU在跑

这种情况也很好发现，只需要看看显存是否被占用或者有没有安装pytorch和cuda，可以用如下代码来查看是否装了pytorch和cuda，怎么安装很多博主已经介绍过了，随便一查一大堆。

import torchprint(torch.__version__)torch.cuda.is_available()

上面代码结果如下图，说明正确安装CUDA和pytorch（记得要版本对应，不然会报错），最好把cudnn也装上。

如果是CPU在训练，可以设置下面的代码来更换GPU训练模型，default设置成你GPU的编号就行，单显卡就是0。

3.训练瓶颈

3.1 CPU瓶颈

CPU瓶颈很好判断，那就是CPU占用率很高，同时GPU也在使用，这说明电脑CPU太差了。设置参数，尽量不让CPU占用率超过85%。

3.2 内存瓶颈

简单来说就是内存爆了，基本上不存在内存频率跟不上的，同样设置参数，内存占用也尽量不要超过85%-90%。

3.3 IO瓶颈

这种情况会复杂很多，这个IO可能是硬盘读到内存导致的，也有可能是从内存到GPU导致的，也有可能是读写记录的时候导致的，反正杂七杂八的，最难看出哪里出了问题。

对于以上三种瓶颈可以通过瓶颈测试工具来测试出来，具体方法下面的博客说的很清楚。

(24条消息) PyTorch消除训练瓶颈提速技巧_*pprp*的博客-CSDN博客

对于前两种瓶颈，都可以通过设置batchsize，workers和imgsize来尝试解决，或者更换yolov5的模型，使用最小的yolov5s来训练，如果以上方法解决不了，建议更换硬件或者租用云服务器。对于第三种情况基本只能通过预读取数据和更换硬件来实现。

4.性能过剩

对，你没有看错，性能过剩也会导致Yolov5训练速度过慢，原因也很让人无语，在train.py中有这样一行代码，这行代码旨在将数据读到内存中进行缓存，这样就可以更快的存取数据。

这样读取数据就可以让正在工作的GPU计算完数据后不会因为硬盘读写太慢而等待数据读入，所以硬盘的读取很重要，训练过程中，数据首先从硬盘读入到内存，然后再从内存读取到CPU或者GPU，所以一块好的硬盘可以有效的加速模型的训练，特别是笔记本硬盘，笔记本硬盘读取速度很慢，建议把数据放入SSD中。那么问题来了，如果GPU计算速度超过了从硬盘读入内存，再从内存读入GPU的速度，并且硬盘的读取速度够快，会发生什么，这也是导致博主训练速度太慢的原因。

对于小批量数据（很多自建数据都是小批量数据），一两千张，检测目标数不多，模型不复杂的情况下，对于高端显卡或者专业图形卡都是小case，基本都用不到多少算力，GPU很快就计算完了一个batch的数据，这时候就要等待数据读入，如果硬盘读写够快，数据从硬盘读入内存，GPU再从内存读出，相较于直接从硬盘读入GPU，本来用作缓存的内存反而成了额外的开销，数据绕了远路，IO读取时间反而增大了。其实说白了还是IO问题造成的，只不过原因不是硬件太差。当然，以上内容是博主的猜测，仅供参考。

所以，对于拥有一个好的SSD，好显卡，内存和CPU性能好的计算机而言，在训练数据量小，模型不大的情况下，建议将cacheimages关掉，直接从硬盘读入GPU，将action='store_true'替换为action='store_false'即可，关掉之后博主一次epoch从3分钟变成了20s，提升巨大，而且训练结果没有改变。

总结

大多数情况来说都是性能不足，存在瓶颈的情况，从而导致模型训练时间长，这也是深度学习中常有的事，但是在自己硬件条件好，数据量不大的情况下，模型训练仍然慢，就该考虑下是不是因为性能过剩，在数据存取上花了过多的时间造成的，~~这表现为内存和显存使用很大，但是CPU和GPU却不怎么占用。~~经过博主一些测试，博主发现不管有没有用缓存，内存和显存使用都很大，这应该是pytorch底层逻辑的关系，在用GPU跑模型的时候pytorch会自动把数据缓存到显存里，内存使用大小仅仅和batch_size有关。

值得一提的是，虽然训练速度大大增加，但是依然没有解决GPU占用率低的问题，虽然GPU占用率很低，但是不会存在一段时间为0的情况，博主推测，可能是因为数据量太小，所需要检测目标数不多造成计算量太小的原因。博主之前在用VOC2012数据集进行训练时，GPU占用率就不低，但是仍然只占用了30%-60%，不知道使用这种方法有没有效，因为学业问题只能先跑自己数据集，如果有时间博主会更新相关结论。

最后，博主计算机功底不算扎实，如果有问题，希望各位读者指正。

来源地址：https://blog.csdn.net/weixin_54048889/article/details/127934092

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

python 目标检测

阅读原文内容投诉

YOLOv5训练速度慢的一些解决方法

下载Word文档到电脑，方便收藏和打印～

下载Word文档

编程热搜

Python 学习之路 - Python
一、安装Python34Windows在Python官网（https://www.python.org/downloads/）下载安装包并安装。Python的默认安装路径是：C:\Python34配置环境变量：【右键计算机】--》【属性】-
chatgpt的中文全称是什么
chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型，它能够通过学习和理解人类的语言来进行对话，还能根据聊天的上下文进行互动，并协助人类完成一系列
C/C++中extern函数使用详解
C/C++可变参数的使用
可变参数的使用方法远远不止以下几种，不过在C,C++中使用可变参数时要小心，在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少，否则会产生访问越界，运气不好的话还会导致程序崩溃
css样式文件该放在哪里
php中数组下标必须是连续的吗
Python 3 教程
Python 3 教程 Python 的 3.0 版本，常被称为 Python 3000，或简称 Py3k。相对于 Python 的早期版本，这是一个较大的升级。为了不带入过多的累赘，Python 3.0 在设计的时候没有考虑向下兼容。 Python
Python pip包管理
一、前言在Python中，安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具： easy_install 和 pip ，目前官方推荐使用 pip。
ubuntu如何重新编译内核
改善Java代码之慎用java动态编译