我的编程空间,编程开发者的网络收藏夹
学习永远不晚

机器学习web服务化实战:一次吐血的服

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

机器学习web服务化实战:一次吐血的服

背景

在公司内部,我负责帮助研究院的小伙伴搭建机器学习web服务,研究院的小伙伴提供一个机器学习本地接口,我负责提供一个对外服务的HTTP接口。

说起人工智能和机器学习,python是最擅长的,其以开发速度快,第三方库多而广受欢迎,以至于现在大多数机器学习算法都是用python编写。但是对于服务化来说,python有致命的问题:很难利用机器多核。由于一个python进程中全局只有一个解释器,故多线程是假的,多个线程只能使用一个核,要想充分利用多核就必须使用多进程。此外由于机器学习是CPU密集型,其对多核的需求更为强烈,故要想服务化必须多进程。但是机器学习服务有一个典型特征:服务初始化时,有一个非常大的数据模型要加载到内存,比如我现在要服务化的这个,模型加载到内存需要整整8G的内存,之后在模型上的分类、预测都是只读,没有写操作。所以在多进程基础上,也要考虑内存限制,如果每个进程都初始化自己的模型,那么内存使用量将随着进程数增加而成倍上涨,如何使得多个进程共享一个内存数据模型也是需要解决的问题,特别的如何在一个web服务上实现多进程共享大内存模型是一个棘手的问题。

首先,我们来看看如何进行web服务化呢?我使用python中广泛利用的web框架:Flask + gunicorn。Flask + gunicorn我这里面认为大伙都用过,所以我后面写的就省略些,主要精力放在遇到的问题和解决问题的过程。

实现方式1:每个进程分别初始化自己的模型
为此我编写了一个python文件来对一个分类模型进行服务化,文件首先进行模型初始化,之后每次web请求,对请求中的数据data利用模型进行预测,返回其对应的标签。

#label_service.py
# 省略一些引入的包
model = Model() #数据模型
model.load()    #模型加载训练好的数据到内存中
app = Flask(__name__)
class Label(MethodView):
      def post(self):
        data = request.data
        label = model.predict(data)
        return label

app.add_url_rule('/labelservice/', view_func=Label.as_view('label'), methods=['POST','GET'])

利用gunicorn进行启动,gunicorn的好处在于其支持多进程,每个进程可以独立的服务一个外部请求,这样就可以利用多核。

gunicorn  -w8 -b0.0.0.0:12711 label_service:app

其中:

-w8 意思是启动8个服务进程。

满心欢喜的启动,但是随即我就发现内存直接爆掉。前面说过,我的模型加载到内存中需要8个G,但是由于我启动了8个工作进程,每个进程都初始化一次模型,这就要求我的机器至少有64G内存,这无法忍受。可是,如果我就开一个进程,那么我的多核机器的CPU就浪费了,怎么办?

那么有没有什么方法能够使得8个工作进程共用一份内存数据模型呢? 很遗憾,python中提供多进程之间共享内存都是对于固定的原生数据类型,而我这里面是一个用户自定义的类。此外,模型中依赖的大量的第三方机器学习包,这些包本身并不支持共享内存方式,而且我也不可能去修改它们的源码。怎么办?

gunicorn 进程模型

仔细看了gunicorn的官方文档,其中就有对其工作模型的描述。

gunicorn主进程:负责fork子进程并监控子进程,根据外部信号来决定是否增加或者减少子进程的数量。
gunicorn子进程:负责接收web请求并且完成请求计算。
我突发奇想,我可以利用gunicorn父子进程在fork时共享父进程内存空间直接使用模型,只要没有对模型的写操作,就不会触发copy-on-write,内存就不会由于子进程数量增加而成本增长。原理图如下:

主进程首先初始化模型,之后fork的子进程直接就拥有父进程的地址空间。接下来的问题就是如何在gunicron的一个恰当的地方进行初始化,并且如何把模型传递给Flask。

实现方式2:利用gunicorn配置文件只在主进程中初始化模型
查看gunicorn官方文档,可以在配置文件配置主进程初始化所需的数据,gunicorn保证配置文件中的数据只在主进程中初始化一次。之后可以利用gunicorn中的HOOK函数pre_request,把model传递给flask处理接口。

#gunicorn.conf
import sys
sys.path.append(".") #必须把本地路径添加到path中,否则gunicorn找不到当前目录所包含的类
model = Model()
model.load()
def pre_request(worker, req):
  req.headers.append(('FLASK_MODEL', model)) #把模型通过request传递给flask。

pre_request = pre_request
#label_service.py
# 省略一些引入的包

app = Flask(__name__)
class Label(MethodView):
      def post(self):
        data = request.data
        model = request.environ['HTTP_FLASK_MODEL'] #从这里取出模型,注意多了一个HTTP前缀。
        label = model.predict(data)
        return label

app.add_url_rule('/labelservice/', view_func=Label.as_view('label'), methods=['POST','GET'])
启动服务:

gunicorn -c gunicorn.conf -w8 -b0.0.0.0:12711 label_service:app

使用 -c 指定我们的配置文件。

启动服务发现达到了我的目的,模型只初始化一次,故总内存消耗还是8G。

这里面提醒大家,当你用top看内存时,发现每个子进程内存大小还是8G,没有关系,我们只要看本机总的剩余内存是减少8G还是减少了8*8=64G。
到此,满心欢喜,进行上线,但是悲剧马上接踵而来。服务运行一段时间,每个进程内存陡增1G,如下图是我指定gunicorn进程数为1的时候,实测发现,如果启动8个gunicorn工作进程,则内存在某一时刻增长8G,直接oom。

到此,我的内心是崩溃的。不过根据经验我推测,在某个时刻某些东西触发了copy-on-write机制,于是我让研究院小伙伴仔细审查了一下他们的模型代码,确认没有写操作,那么就只可能是gunicorn中有写操作。

接下来我用蹩脚的英文在gunicorn中提了一个issue:https://github.com/benoitc/gu... ,大神立刻给我指出了一条明路,原来是python的垃圾收集器搞的鬼,详见:https://bugs.python.org/issue... , 因为python的垃圾收集会更改每个类的 PyGC_Head,从而它触发了copy-on-write机制,导致我的服务内存成倍增长。

那么有没有什么方法能够禁止垃圾收集器收集这些初始化好的需要大内存的模型呢?有,那就是使用gc.freeze(), 详见 https://docs.python.org/3.7/l... 。但是这个接口在python3.7中才提供,为此我不得不把我的服务升级到python3.7。

实现方式3:python2.7升级到python3.7后使用gc.freeze()
升级python是一件非常痛苦的事情,因为我们的代码都是基于python2.7编写,许多语法在python3.7中不兼容,特别是字符串操作,简直恶心到死,只能一一改正,除此之外还有pickle的不兼容等等,具体修改过程不赘述。最终我们的服务代码如下。

  #gunicorn.conf
    import sys
    import gc
    sys.path.append(".") #必须把本地路径添加到path中,否则gunicorn找不到当前目录所包含的类
    model = Model()
    model.load()

gc.freeze() #调用gc.freeze()必须在fork子进程之前,在gunicorn的这个地方调用正好合适,freeze把截止到当前的所有对象放入持久化区域,不进行回收,从而model占用的内存不会被copy-on-write。

def pre_request(worker, req):
  req.headers.append(('FLASK_MODEL', model)) #把模型通过request传递给flask。
pre_request = pre_request

上线之后观察到,我们单个进程内存大小从8个G降低到6.5个G,这个推测和python3.7本身的优化有关。其次,运行一段时间后,每个子进程内存缓慢上涨500M左右后达到稳定,这要比每个子进程突然增加1G内存(并且不知道是否只突增一次)要好的多。

使用父子进程共享数据后需要进行预热

当使用gunicorn多进程实现子进程与父进程共享模型数据后,发现了一个问题:就是每个子进程模型的第一次请求计算耗时特别长,之后的计算就会非常快。这个现象在每个进程拥有自己的独立的数据模型时是不存在的,不知道是否和python的某些机制有关,有哪位小伙伴了解可以留言给我。对于这种情况,解决办法是在服务启动后预热,人为尽可能多发几个预热请求,这样每个子进程都能够进行第一次计算,请求处理完毕后再上线,这样就避免线上调用方长时间hang住得不到响应。

结语

到此,我的服务化之路暂时告一段落。这个问题整整困扰我一周,虽然解决的不是很完美,但是对于我这个python新手来说,还是收获颇丰。也希望我的这篇文章能够对小伙伴们产生一些帮助。

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

机器学习web服务化实战:一次吐血的服

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

机器学习web服务化实战:一次吐血的服

背景在公司内部,我负责帮助研究院的小伙伴搭建机器学习web服务,研究院的小伙伴提供一个机器学习本地接口,我负责提供一个对外服务的HTTP接口。说起人工智能和机器学习,python是最擅长的,其以开发速度快,第三方库多而广受欢迎,以至于现在大
2023-01-31

服务器性能优化实战指南:让你的网站一飞冲天

服务器性能优化实战指南:让你的网站飞速提升
服务器性能优化实战指南:让你的网站一飞冲天
2024-03-01

服务器冗余性的 AI 应用:利用机器学习和自动化实现更智能的管理

人工智能(AI)在服务器冗余性的管理中带来了革命,利用机器学习和自动化实现了更智能、更高效的流程。了解如何利用 AI 的力量提高弹性和可用性。
服务器冗余性的 AI 应用:利用机器学习和自动化实现更智能的管理
2024-02-19

租用阿里云GPU服务器的公司实现高效的数据分析和机器学习

随着大数据和人工智能的不断发展,GPU服务器的需求日益增长。作为中国最大的云服务提供商,阿里云的GPU服务器已经成为许多公司进行高效数据分析和机器学习的首选。本文将详细介绍租用阿里云GPU服务器的公司及其优势。阿里云GPU服务器:实现高效的数据分析和机器学习阿里云是全球领先的云计算服务提供商,以其稳定、安全、可靠
租用阿里云GPU服务器的公司实现高效的数据分析和机器学习
2023-10-30

服务器日志管理的未来:展望数据分析和机器学习在网站优化中的应用

:随着数据量的不断增长和机器学习的快速发展,服务器日志管理正在发生深刻的变化。本文将对服务器日志管理的未来进行展望,探讨数据分析和机器学习在网站优化中的应用前景。
服务器日志管理的未来:展望数据分析和机器学习在网站优化中的应用
2024-02-04

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录