我的编程空间,编程开发者的网络收藏夹
学习永远不晚

【AMD GPU】使用A卡进行ai模型训练

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

【AMD GPU】使用A卡进行ai模型训练

在linux中使用A卡进行ai模型训练

吐槽

rocm都更新这么多版本了怎么还没有windows的
~~##RX580用户看过来
rocm4.0版本后就不支持RX580了,垃圾AMD

使用的设备配置

linux:Ubuntu20.04.1
CPU:R9-5900hx
GPU:RX6800M 12G
python:3.10.6

2022-10-24 23:21:50一键部署工具发布

顺序:1-8-2-3-4-5-7-6
加个源:deb https://ppa.launchpadcontent.net/deadsnakes/ppa/ubuntu jammy main
下载链接https://www.123pan.com/s/xW39-dVMmH提取码:2333

安装GPU驱动

如果你已经安装成功了gpu驱动可以跳过
如果之前装过其它版本没有驱动成功的,在终端输入
sudo amdgpu-install --uninstall卸载驱动

访问amd官网下载amdgpu-install_xxxxxx.xxxxxx_all.deb

进入安装包所在的目录
接着在终端输入:sudo apt install ./amdgpu-install_xxxxxxx-xxxxxx_all.deb(注:amdgpu-install_xxxxxxx-xxxxxx_all.deb指的是你下载的amdgpu版本

然后sudo apt updatesudo apt upgrade -y

开始安装驱动

sudo amdgpu-install --no-dkmssudo apt install rocm-dev//安装完后重启sudo reboot

配置环境

ls -l /dev/dri/render*sudo usermod -a -G render $LOGNAMEsudo usermod -a -G video $LOGNAMEsudo reboot

测试

# 显示gpu性能监控rocm-smi#查看显卡信息的两条命令(直接在终端输入)/opt/rocm/bin/rocminfo/opt/rocm/opencl/bin/clinfo#有一条报错可能是没安装好

添加path

echo ‘export PATH=$PATH:/opt/rocm/bin:/opt/rocm/profiler/bin:/opt/rocm/opencl/bin/x86_64’ | sudo tee -a /etc/profile.d/rocm.sh

安装MIopen

#安装hipsudo apt-get install miopen-hip#下载miopenkernels,适用与gfx1030的a卡,如果你不是可以试一下链接:https://www.123pan.com/s/xW39-oyMmHsudo dpkg -i miopenkernels-gfx1030-36kdb_1.1.0.50200-65_amd64.deb

RDNA2架构安装pytorch

pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/rocm5.1.1

RX580(gfx803)用户安装这个

pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/rocm3.7

运行stable-diffusion-webui

sudo apt install gitgit clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.gitcd stable-diffusion-webui#一般会提示pip版本太低,更新一下python -m pip install --upgrade pip wheelpip install -r requirements.txt' -i https://pypi.tuna.tsinghua.edu.cn/simpleHSA_OVERRIDE_GFX_VERSION=10.3.0 python launch.py --precision full --no-half#HSA_OVERRIDE_GFX_VERSION可以模拟版本可以填9.0.0或者8.0.3(没试过)//一般来讲会提示没有模型,如果有扔./models/Stable-diffusion里,本文不提供,自行百度

提示cuda错误,解决方法

torch is not able to use gpu

#打开launch.py找到这句代码commandline_args = os.environ.get('COMMANDLINE_ARGS', "")#改成commandline_args = os.environ.get('COMMANDLINE_ARGS', "--skip-torch-cuda-test")

疑难杂症解决

rocm-gdb依赖libpython3.8解决

进软件和更新——其他软件——添加下面软件源

deb https://ppa.launchpadcontent.net/deadsnakes/ppa/ubuntu jammy main

更新一下软件源

sudo apt upgradesudo apt update

安装libpython3.8并重新运行amdgpu-install

sudo apt install libpython3.8sudo apt install rocm-dev

rocm-llvm依赖python但无法安装它

找个目录进行操作

apt download rocm-llvmar x rocm-llvm_xxxx.xxxxx_amd64.debtar xf control.tar.xz#编辑文件,如果没有vim将先安装sudo apt install vimvim control#找到如下一行:Depends: python, libc6, libstdc++6|libstdc++8, libstdc++-5-dev|libstdc++-7-dev, libgcc-5-dev|libgcc-7-dev, rocm-core#改为如下内容:Depends: python3, libc6, libstdc++6|libstdc++8, libstdc++-5-dev|libstdc++-7-dev|libstdc++-10-dev, libgcc-5-dev|libgcc-7-dev|libgcc-10-dev, rocm-core#重新打包tar c postinst prerm control | xz -c > control.tar.xzar rcs rocm-llvm.deb debian-binary control.tar.xz data.tar.xz#安装前先安装依赖sudo apt install libstdc++-10-dev libgcc-10-dev rocm-core#安装sudo dpkg -i rocm-llvm.deb#重新安装驱动sudo amdgpu-install --no-dkms

运行launch.py时出现语法错误/切换python版本版本

多半是你ubuntu默认python不对应

sudo HSA_OVERRIDE_GFX_VERSION=10.3.0 python launch.py --precision full --no-half
#先查看本地安装了多少个pythonls /usr/bin/python*#正常来讲会出现一下内容#/usr/bin/python      /usr/bin/python3.10-config  /usr/bin/python3-futurize#/usr/bin/python3     /usr/bin/python3.8          /usr/bin/python3-pasteurize#/usr/bin/python3.10  /usr/bin/python3-config #我们要用的是python3.10的,所以sudo rm /usr/bin/python  #删除原来的链接sudo ln -s /usr/bin/python3.10 /usr/bin/python    #创建新的链接python --version    #测试

Can’t run without a checkpoint. Find and place a .ckpt file into any of those locations. The program will exit.

你没有模型,把模型放进/models/Stable-diffusion里面吧(cpkt文件)

安装完驱动重启黑屏

启动的时候选择第二项(recovery模式)后,再选第一项继续进入系统,进来后卸载驱动

运行后下载插件超时

下载插件的速度三取决与年访问github是否流畅,很卡的话就修改launch.py吧

gfpgan_package = os.environ.get('GFPGAN_PACKAGE', "git+https://github.com/TencentARC/GFPGAN.git@8d2447a2d918f8eba5a4a01463fd48e45126a379")修改成gfpgan_package = os.environ.get('GFPGAN_PACKAGE', "git+ https://ghproxy.com/https://github.com/TencentARC/GFPGAN.git@8d2447a2d918f8eba5a4a01463fd48e45126a379")

GPU看戏(指GPU不工作)

用root环境运行webui吧(没试过)

su#输入密码,如果没设置就用sudo passwd root设置密码HSA_OVERRIDE_GFX_VERSION=10.3.0 python launch.py --precision full --no-half#HSA_OVERRIDE_GFX_VERSION可以模拟版本可以填9.0.0或者8.0.3(没试过)

愉快玩耍

进webui目录执行以下操作

HSA_OVERRIDE_GFX_VERSION=10.3.0 python launch.py --precision full --no-half

如果运行时出现什么hip错误找不到gfx1030或者其他版号的可以不用管,等待一会就可以了,后面生成就不会提示,(每次启动第一次运行都会这样)

显卡监控(选装)

sudo apt install radeontopradeontop

来源地址:https://blog.csdn.net/qq_44948500/article/details/127346390

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

【AMD GPU】使用A卡进行ai模型训练

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

怎么使用R语言进行机器学习模型训练和评估

在R语言中,可以使用各种机器学习库和包来进行模型训练和评估。以下是一个简单的步骤来使用R语言进行机器学习模型训练和评估的示例:准备数据:首先加载数据集,将数据集分为训练集和测试集。#加载数据data <- read.csv("data.c
怎么使用R语言进行机器学习模型训练和评估
2024-03-04

使用PyTorch怎么多GPU中对模型进行保存

这篇文章将为大家详细讲解有关使用PyTorch怎么多GPU中对模型进行保存,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。多GPU下训练,创建模型代码通常如下:os.environ[CUDA_
2023-06-07

【目标检测实验系列】AutoDL线上GPU服务器租用流程以及如何用Pycharm软件远程连接服务器进行模型训练 (以Pycharm远程训练Yolov5项目为例子 超详细)

目录 1. 文章主要内容2. 租用AutoDL服务器详细教程2.1 注册AutoDL账号,并申请学生认证(学生认证有优惠,如果不是学生可以忽略此点)2.2 算力市场选择GPU,并选择初始化配置环境2.3 控制台参数解析,并使用相关参
2023-08-30

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录