我的编程空间,编程开发者的网络收藏夹
学习永远不晚

Kubeflow使用Kubernetes进行机器学习的方法

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

Kubeflow使用Kubernetes进行机器学习的方法

本篇内容主要讲解“Kubeflow使用Kubernetes进行机器学习的方法”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Kubeflow使用Kubernetes进行机器学习的方法”吧!

女主宣言

Kubeflow是Google推出的基于kubernetes环境下的机器学习组件,通过Kubeflow可以实现对TFJob等资源类型定义,可以像部署应用一样完成在TFJob分布式训练模型的过程。本文简单的介绍了Kubeflow及其安装流程。

1

背景简介

在介绍Kubeflow之前, 先简单介绍下真正的机器学习模型服务上线都需要经历哪些阶段,如下图所示:

Kubeflow使用Kubernetes进行机器学习的方法

上图的每种颜色代表对一个阶段的处理,可以看出一个机器学习模型上线对外提供服务要经过:数据清洗验证,数据集切分, 训练,构建验证模型, 大规模训练,模型导出,模型服务上线, 日志监控等阶段。Tensorflow 等计算框架解决了最核心的部分问题,但是距离生产化,产品化,以及企业级机器学习项目开发,还有一段距离。比如: 数据收集, 数据清洗, 特征提取, 计算资源管理, 模型服务, 配置管理, 存储, 监控, 日志等等。

2

Kubeflow核心组件简介

  • jupyter 多租户NoteBook服务

  • Tensorflow/[PyTorch] 当前主要支持的机器学习引擎

  • Seldon 提供在Kubernetes上对机器学习模型的部署

  • TF-Serving 提供对Tensorflow模型的在线部署,支持版本控制及无需停止线上服务,切换模型等功能

  • Argo 基于Kubernetes的工作流引擎

  • Ambassador 对外提供统一服务的网关(API Gateway)

  • Istio 提供微服务的管理,Telemetry收集

  • Ksonnet Kubeflow使用ksonnet来向kubernetes集群部署需要的k8s资源

Kubeflow利用Kubernetes的优势

  • 原生的资源隔离

  • 集群化自动化管理

  • 计算资源(CPU/GPU)自动调度

  • 对多种分布式存储的支持

  • 集成较为成熟的监控,告警

将机器学习各个阶段涉及的组件以微服务的方式进行组合并以容器化的方式进行部署,提供整个流程各个系统的高可用及方便的进行扩展。

Kubeflow使用Kubernetes进行机器学习的方法

3

Kubeflow 部署安装

服务器配置

  • GPU卡型号: Nvidia-Tesla-K80

  • 网卡: 千兆(注意:在进行对大数据集进行训练时,千兆的网卡会是瓶颈)

cephfs服务配置

网卡:万兆(注意:通过ceph对数据存储时,ceph集群需要与Kubernetes同机房,否则延迟会对加载数据集的影响非常高)

软件环境

  • kubernetes version: v1.12.2(注意: 需要安装kube-dns)

  • kubeflow version: v0.3.2

  • jsonnet version: v0.11.2

安装ksonnet

Kubeflow使用Kubernetes进行机器学习的方法

安装Kubeflow

Kubeflow使用Kubernetes进行机器学习的方法

当上面的所有安装步骤都正常完成之后,先查看kubeflow在kubernetes集群deployment资源对象的启动状态:

Kubeflow使用Kubernetes进行机器学习的方法

通过状态我们发现现在服务启动正常,在查看下各个deployment下各个服务的pod的状态:

Kubeflow使用Kubernetes进行机器学习的方法

现在服务都是正常的,接下来让我们通过Ambassador来访问kubeflow部署到k8s集群中的各个组件。

访问Kubeflow UIs

由于Kubeflow使用Ambassador作为kubeflow统一的对外网关,其它的内部服务都是通过使用它来对外提供服务。具体如下图所示:

Kubeflow使用Kubernetes进行机器学习的方法

接下来我们使用kubectl的port-forwarding来对Ambassador Service进行端口转发,在本地对Kubeflow进行访问:

Kubeflow使用Kubernetes进行机器学习的方法

通过浏览器进行本地localhost:8080访问:

Kubeflow使用Kubernetes进行机器学习的方法

通过Kubeflow UIs可以针对不同的功能进行使用,如使用Jupyter Notebook进行对应用的全过程计算:开发、文档编写、运行代码和展示结果。也可以访问TF-operator来对基于Tensorflow的模型进行多机多卡的分布式训练。

Kubeflow使用Kubernetes进行机器学习的方法

4

总结

现在国外的Google,微软,亚马逊,Intel以及国内的阿里云,华为云等等公司都在发力Kubeflow,并结合kubernetes对多种机器学习引擎进行多机多卡的大规模训练,这样可以做到对GPU资源的整合,并高效的提高GPU资源利用率,及模型训练的效率。并实现一站式服务,将机器学习服务上线的整个workflow都在Kubernetes平台实现。减轻机器学习算法同学的其它学习成本,专心搞算法。这势必给Devops的同学带来更高的挑战。

到此,相信大家对“Kubeflow使用Kubernetes进行机器学习的方法”有了更深的了解,不妨来实际操作一番吧!这里是编程网网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

Kubeflow使用Kubernetes进行机器学习的方法

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

Kubeflow使用Kubernetes进行机器学习的方法

本篇内容主要讲解“Kubeflow使用Kubernetes进行机器学习的方法”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Kubeflow使用Kubernetes进行机器学习的方法”吧!女主宣言
2023-06-04

使用C++进行机器学习:如何在C++中使用第三方机器学习库

在 c++++ 中使用机器学习库的优势包括:代码重用专业性可扩展性集成库的步骤:选择库安装库导入库实例化库执行机器学习任务获取结果使用 C++ 进行机器学习:如何在 C++ 中使用第三方机器学习库在 C++ 中使用机器学习是编写高性能和资
使用C++进行机器学习:如何在C++中使用第三方机器学习库
2024-05-11

C++技术中的机器学习:使用C++进行机器学习项目的常见错误

在 c++++ 机器学习中,常见错误包括:变量范围管理不当导致意外结果(使用限定符和局部作用域避免);指针管理错误导致野指针或内存访问问题(使用智能指针或 raii 原则);不正确的类型转换导致数据丢失(使用显式类型转换并检查成功);过度优
C++技术中的机器学习:使用C++进行机器学习项目的常见错误
2024-05-11

C++技术中的机器学习:使用C++实现机器学习算法的并行编程

c++++ 中的并行编程可以极大地提高机器学习算法的效率。c++ 提供了线程等并行工具,以及 openmp 和 mpi 等 api。openmp 可用于共享内存并行,而 mpi 则适用于分布式内存并行。通过使用 openmp,可以并行化线性
C++技术中的机器学习:使用C++实现机器学习算法的并行编程
2024-05-12

使用C++实现机器学习算法:GPU加速的最佳方法

c++uda 可加速 c++ 中的 ml 算法,提供更快的训练时间、更高的精度和可扩展性。具体步骤包括:定义数据结构和内核、初始化数据和模型、分配 gpu 内存、将数据复制到 gpu、创建 cuda 上下文和流、训练模型、将模型复制回主机、
使用C++实现机器学习算法:GPU加速的最佳方法
2024-05-11

C++技术中的机器学习:使用C++实现常见机器学习算法的指南

在 c++++ 中,机器学习算法的实施方式包括:线性回归:用于预测连续变量,步骤包括加载数据、计算权重和偏差、更新参数和预测。逻辑回归:用于预测离散变量,流程与线性回归类似,但使用 sigmoid 函数进行预测。支持向量机:一种强大的分类和
C++技术中的机器学习:使用C++实现常见机器学习算法的指南
2024-05-11

C++技术中的机器学习:使用C++实现机器学习算法的调试技巧

c++++ 中机器学习算法的调试技巧:使用断点和调试器进行精确错误识别และตรวจสอบสถานะของตัวแปร使用日志记录和跟踪记录关键变量和事件以了解算法行为利用 valgrind 和 gdb 等分析工具检测内存错误和获取程序状态
C++技术中的机器学习:使用C++实现机器学习算法的调试技巧
2024-05-11

学习使用Golang进行快速打包的指南

Golang打包指南:快速学习如何使用golang进行打包,需要具体代码示例引言Go语言(Golang)是一种非常流行的编程语言,其简单性和效率已经吸引了越来越多的开发者。在Go中,打包(Packaging)是一项非常重要的任务,它允许将代
学习使用Golang进行快速打包的指南
2023-12-29

怎么使用R语言进行机器学习模型训练和评估

在R语言中,可以使用各种机器学习库和包来进行模型训练和评估。以下是一个简单的步骤来使用R语言进行机器学习模型训练和评估的示例:准备数据:首先加载数据集,将数据集分为训练集和测试集。#加载数据data <- read.csv("data.c
怎么使用R语言进行机器学习模型训练和评估
2024-03-04

Sphinx PHP 如何结合机器学习算法进行智能搜索

引言:随着互联网信息的快速增长,搜索引擎已经成为我们获取信息的重要途径。然而,传统的搜索引擎往往依赖于基于关键词的检索,容易受到短语模糊、歧义等问题的影响,并且在应对用户查询的多样性时存在局限性,无法提供准确的搜索结果。为了解决这些问题,结
2023-10-21

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录