我的编程空间,编程开发者的网络收藏夹
学习永远不晚

几行代码让Python函数执行快30倍

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

几行代码让Python函数执行快30倍

Python 是一种流行的编程语言,也是数据科学社区中最受欢迎的语言。与其他流行编程语言相比,Python 的主要缺点是它的动态特性和多功能属性拖慢了速度表现。Python 代码是在运行时被解释的,而不是在编译时被编译为原生代码。

1、Python 多线程处理的基本指南

C 语言的执行速度比 Python 代码快 10 100 倍。但如果对比开发速度的话,Python 比 C 语言要快。对于数据科学研究来说,开发速度远比运行时性能更重要。由于存在大量 API、框架和包,Python 更受数据科学家和数据分析师的青睐,只是它在性能优化方面落后太多了。

2、多处理入门

考虑一个单核心 CPU,如果它被同时分配多个任务,就必须不断地中断当前执行的任务并切换到下一个任务才能保持所有进程正常运行。对于多核处理器来说,CPU 可以在不同内核中同时执行多个任务,这一概念被称为并行处理。

3、它为什么如此重要?

数据整理、特征工程和数据探索都是数据科学模型开发管道中的重要元素。在输入机器学习模型之前,原始数据需要做工程处理。对于较小的数据集来说,执行过程只需几秒钟就能完成;但对于较大的数据集而言,这项任务就比较繁重了。

并行处理是提高 Python 程序性能的一种有效方法。Python 有一个多处理模块,让我们能够跨 CPU 的不同内核并行执行程序。

4、实现

我们将使用来自 multiprocessing 模块的 Pool 类,针对多个输入值并行执行一个函数。这个概念称为数据并行性,它是 Pool 类的主要目标。

我将使用从 Kaggle 下载的 Quora 问题对相似性数据 集来演示这个模块。

上述数据集包含了很多在 Quora 平台上提出的文本问题。我将在一个 Python 函数上执行多处理模块,这个函数通过删除停用词、删除 HTML 标签、删除标点符号、词干提取等过程来处理文本数据。

preprocess() 就是执行上述文本处理步骤的函数。

可以在 这里 找到托管在我的 GitHub 上的函数 preprocess() 的代码片段。
现在,我们使用 multiprocessing 模块中的 Pool 类为数据集的不同块并行执行该函数。数据集的每个块都将并行处理。


import multiprocessing
from functools import partial
from QuoraTextPreprocessing import preprocess

BUCKET_SIZE = 50000

def run_process(df, start):
    df = df[start:start+BUCKET_SIZE]
    print(start, "to ",start+BUCKET_SIZE)
    temp = df["question"].apply(preprocess)

chunks  = [x for x in range(0,df.shape[0], BUCKET_SIZE)]   
pool = multiprocessing.Pool()
func = partial(run_process, df)
temp = pool.map(func,chunks)
pool.close()
pool.join()

该数据集有 537,361 条记录(文本问题)需要处理。对于 50,000 的桶大小,数据集被分成 11 个较小的数据块,这些块可以并行处理以加快程序的执行时间。

5、基准测试

人们常问的问题是使用多处理模块后执行速度能快多少。我在实现了数据并行性,对整个数据集执行一次 preprocess() 函数后对比了基准执行时间。

运行测试的机器有 64GB 内存和 10 个 CPU 内核。

多处理和单处理执行的基准时间:

从上图中,我们可以观察到 Python 函数的并行处理将执行速度提高了近 30 倍。

我们可以在我的 GitHub 中找到用于记录基准测试数据的 Python文件。

基准测试过程:

结 论:

在本文中,我们讨论了 Python 中多处理模块的实现,该模块可用于加速 Python 函数的执行。添加几行多处理代码后,具有 537k 实例的数据集的执行时间几乎快了 30 倍。

处理大型数据集的时候,我建议大家使用并行处理,因为它可以节省大量时间并加快工作流程。

到此这篇关于几行代码让 Python 函数执行快 30 倍的文章就介绍到这了,更多相关Python 函数执行内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

几行代码让Python函数执行快30倍

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

只用3行代码,让Python提速4倍!最

Python是一门非常适合处理数据和自动化完成重复性工作的编程语言。我们在用数据训练机器学习模型之前,通常都需要对数据进行预处理,而Python就非常适合完成这项工作,比如需要重新调整几十万张图像的尺寸,用Python没问题!你几乎总是能找
2023-01-31

怎么编写Python代码让数据处理快4倍

这篇文章主要介绍“怎么编写Python代码让数据处理快4倍”,在日常操作中,相信很多人在怎么编写Python代码让数据处理快4倍问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”怎么编写Python代码让数据处理
2023-06-16

很底层的性能优化:让CPU更快地执行你的代码

Cache对性能的影响 首先我们要知道,CPU访问内存时,不是直接去访问内存的,而是先访问缓存(cache)。当缓存中已经有了我们要的数据时,CPU就会直接从缓存中读数据,而不是从内存中读。CPU和缓存的关系如下:缓存分为一级、二级、三级,
2023-07-31

PyPy 是怎么让Python代码运行得和C一样快

这篇文章的内容主要围绕PyPy 是怎么让Python代码运行得和C一样快进行讲述,文章内容清晰易懂,条理清晰,非常适合新手学习,值得大家去阅读。感兴趣的朋友可以跟随小编一起阅读吧。希望大家通过这篇文章有所收获!1. 引言作为一名算法工程师,
2023-06-26

Python中怎么理解PyPy能让代码运行得更快

这篇文章主要介绍“Python中怎么理解PyPy能让代码运行得更快”,在日常操作中,相信很多人在Python中怎么理解PyPy能让代码运行得更快问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Python中怎么
2023-06-16

简单三行代码函数实现几十行Typescript类型推导

这篇文章主要为大家介绍了简单三行代码函数实现几十行Typescript类型推导的方案示例,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
2023-01-15

借助Python 函数进行模块化代码

你是否对函数、类、方法、库和模块等花哨的编程术语感到困惑?你是否在与变量作用域斗争?无论你是自学成才的还是经过正式培训的程序员,代码的模块化都会令人困惑。但是类和库鼓励模块化代码,因为模块化代码意味着只需构建一个多用途代码块集合,就可以在许
2023-06-02

PHP 函数的代码位置是否影响执行顺序?

函数的执行顺序通常受代码位置影响,但有时调用位置也会影响,如使用名称空间或包含文件时;而函数在不同位置定义但使用相同名称的情况,代码位置不影响其执行顺序。PHP 函数的代码位置是否影响执行顺序简介在 PHP 中,函数的执行顺序通常受代码位
PHP 函数的代码位置是否影响执行顺序?
2024-04-17

如何在执行任意Python代码前让解释器自动保存代码不出BUG

这篇文章主要介绍“如何在执行任意Python代码前让解释器自动保存代码不出BUG”,在日常操作中,相信很多人在如何在执行任意Python代码前让解释器自动保存代码不出BUG问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对
2023-06-16

Python中字符串类型代码的执行函数——eval()、exec()和compile()详解

这篇文章主要介绍了Python中字符串类型代码的执行函数——eval()、exec()和compile(),字符串类型代码的执行函数有三个,都是Python的内置函数,下面逐一对这三个函数详细讲解,需要的朋友可以参考下
2023-02-07

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录