我的编程空间,编程开发者的网络收藏夹
学习永远不晚

怎么避免编写pandas代码

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

怎么避免编写pandas代码

本篇内容主要讲解“怎么避免编写pandas代码”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“怎么避免编写pandas代码”吧!

设置

from platform importpython_versionimport numpy as np import pandas as pdnp.random.seed(42) # set the seed tomake examples repeatable

样本数据集

样本数据集包含各个城市的预订信息,是随机的,唯一目的是展示样本。

数据集有三列:

  • id表示唯一的标识

  • city表示预定的城市信息

  • booked perc表示特定时间预定的百分比

数据集有一万条,这使速度改进更加明显。注意,如果代码以正确的pandas方式编写,pandas可以利用DataFrames计算数百万(甚至数十亿)行的统计数据。

size = 10000cities =["paris", "barcelona", "berlin", "newyork"]df = pd.DataFrame(     {"city": np.random.choice(cities,sizesize=size), "booked_perc": np.random.rand(size)} ) df["id"] = df.index.map(str) +"-" + df.city dfdf = df[["id", "city", "booked_perc"]] df.head()

怎么避免编写pandas代码

1. 如何避免对数据求和

来自Java世界的灵感,把“多行for循环”应用到了Python。

计算booked perc列的总和,把百分比加起来毫无意义,但无论如何,一起来试试吧,实践出真知。

%%timeitsuma = 0 for _, row in df.iterrows():     suma += row.booked_perc766ms ± 20.9 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

更符合Python风格的方式来对列求和如下:

%%timeitsum(booked_perc forbooked_perc in df.booked_perc)989 µs ± 18.5 µs per loop (mean ±std. dev. of 7 runs, 1000 loops each)%%timeitdf.booked_perc.sum()92µs ± 2.21 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

正如预期的那样,第一个示例是最慢的——对一万项求和几乎需要1秒。第二个例子的速度之快令人惊讶。

正确的方法是使用pandas对数据进行求和(或对列使用任何其他操作),这是第三个示例——也是最快的!

2. 如何避免过滤数据

尽管在使用pandas之前,笔者已经很熟悉numpy,并使用for循环来过滤数据。求和时,还是可以观察到性能上的差异。

%%timeitsuma = 0 for _, row in df.iterrows():     if row.booked_perc <=0.5:         suma += row.booked_perc831ms &plusmn; 25.7 ms per loop (mean &plusmn; std. dev. of 7 runs, 1 loop each)%%timeitdf[df.booked_perc<= 0.5].booked_perc.sum()724 &micro;s &plusmn; 18.8 &micro;s per loop(mean &plusmn; std. dev. of 7 runs, 1000 loops each)

正如预期的一样,第二个例子比第一个例子快很多

如果加入更多的过滤器呢?只需把它们添加到括号里:

%%timeitdf[(df.booked_perc <=0.5) & (df.city == 'new york')].booked_perc.sum()1.55ms &plusmn; 10.7 &micro;s per loop (mean &plusmn; std. dev. of 7 runs, 1000 loops each)

3. 如何避免访问以前的值

你可能会说:好吧,但是如果需要访问先前某一列的值呢,还是需要一个for循环。你错了!

分别使用和不使用for循环来计算一行到另一行百分数的改变

%%timeitfor i inrange(1, len(df)):     df.loc[i,"perc_change"] =  (df.loc[i].booked_perc- df.loc[i - 1].booked_perc) / df.loc[i- 1].booked_perc7.02 s &plusmn; 24.4 ms per loop (mean &plusmn; std. dev. of 7runs, 1 loop each)%%timeitdf["perc_change"] = df.booked_perc.pct_change()586&micro;s &plusmn; 17.3 &micro;s per loop (mean &plusmn; std. dev. of 7 runs, 1000 loops each)

同样,第二个例子比第一个使用for循环的例子快得多。

pandas有许多函数可以根据以前的值计算统计数据(例如shift函数对值进行移位)。这些函数接受periods参数,可以在计算中包含以前值的数量。

4. 如何避免使用复杂的函数

有时需要在DataFrame中使用复杂函数(有多个变量的函数)。让我们将从纽约的booking_perc两两相乘,其他设置为0并且把这列命名为sales_factor。

笔者首先想到的是使用iterrows的for循环。

%%timeitfor i, row in df.iterrows():     if row.city =='new york':         df.loc[i, 'sales_factor'] =row.booked_perc * 2     else:         df.loc[i, 'sales_factor'] =03.58 s &plusmn; 48.2 ms per loop (mean &plusmn; std. dev. of 7 runs, 1 loop each)

一个更好的办法是直接在DataFrame上使用函数。

%%timeitdef calculate_sales_factor(row):     if row.city =='new york':         return row.booked_perc* 2     return 0df['sales_factor'] =df.apply(calculate_sales_factor, axis=1)165 ms &plusmn; 2.48 ms per loop(mean &plusmn; std. dev. of 7 runs, 10 loops each)

最快的方法是使用pandas过滤器直接计算函数值。

%%timeit df.loc[df.city== 'new york', 'sales_factor'] = df[df.city == 'newyork'].booked_perc * 2 df.sales_factor.fillna(0, inplace=True)3.03 ms &plusmn; 85.5 &micro;sper loop (mean &plusmn; std. dev. of 7 runs, 100 loops each)

可以看到从第一个例子到最后一个的加速过程。

当解决有3个及3个以上变量的函数时,可以把它分解为多个pandas表达式。这比运用函数更快。

Eg: f(x, a, b) = (a + b) * x df['a_plus_b'] = df['a'] +df['b'] df['f'] = df['a_plus_b'] * df['x']

5. 如何避免对数据进行分组

现在可以看到,在开始使用pandas之前,笔者更多依赖于for循环。至于对数据进行分组,如果充分发挥pandas的优势,可以减少代码行数。

要计算如下数据:

  • 一个城市的平均sales factor

  • 一个城市的首次预定id

%%timeit avg_by_city = {} count_by_city = {} first_booking_by_city = {}for i, row in df.iterrows():     city = row.city     if city in avg_by_city:         avg_by_city[city] += row.sales_factor         count_by_city[city] += 1     else:         avg_by_city[city] = row.sales_factor         count_by_city[city] = 1         first_booking_by_city[city] =row['id']for city, _ in avg_by_city.items():     avg_by_city[city] /=count_by_city[city]878 ms &plusmn; 21.4 ms per loop (mean &plusmn; std. dev. of 7 runs, 1 loopeach)

Pandas有分组操作所以不必在DataFrame上进行迭代,pandas的分组操作和SQL的GROUP BY语句一样的。

%%timeitdf.groupby('city').sales_factor.mean() df.groupby('city').sales_factor.count() df.groupby('city').id.first()3.05 ms &plusmn; 65.3 &micro;s per loop(mean &plusmn; std. dev. of 7 runs, 100 loops each)%%timeitdf.groupby("city").agg({"sales_factor":["mean", "count"], "id": "first"})4.5ms &plusmn; 131 &micro;s per loop (mean &plusmn; std. dev. of 7 runs, 100 loops each)

到此,相信大家对“怎么避免编写pandas代码”有了更深的了解,不妨来实际操作一番吧!这里是编程网网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

怎么避免编写pandas代码

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

怎么避免在Java代码中写大量的判空语句

这篇文章主要介绍了怎么避免在Java代码中写大量的判空语句的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇怎么避免在Java代码中写大量的判空语句文章都会有所收获,下面我们一起来看看吧。有人说可以使用 JDK8提
2023-06-27

pycharm怎么编写代码

如何使用 pycharm 编写代码?创建新项目并文件,在代码编辑器中编写代码。使用代码提示和自动完成功能,提高编写效率。通过运行代码验证其功能。设置断点并使用调试工具进行代码调试。集成版本控制,管理代码更改。利用其他功能,增强开发体验(语法
pycharm怎么编写代码
2024-04-18

Java中避免写嵌套if样式的代码详解

前言Optional的代码相对更加简洁,当代码量较大时,我们很容易忘记进行null判定,但是使用Optional类则会避免这类问题。下面这是一个嵌套的 if 判断,业务逻辑是从 httpRequst 中获取 X-Auth-Token 的值。
2023-05-31

Pygame实现小球躲避实例代码怎么写

Pygame实现小球躲避实例代码怎么写,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。前言:这学期的Python课,要写代码是真的多…课程实验一是一个五子棋,但是发了代码。至于代
2023-06-22

python爱心代码编程怎么写

步骤为:1、确定爱心的样式和大小。在纸上画出你想要的爱心形状,然后将其转化为字符打印的方式;2、创建一个列表,用来存储爱心的每一行字符;3、根据爱心的形状,将每一行的字符添加到列表中。可以使用空格、星号等字符来表示爱心的形状;4、使用循环遍
python爱心代码编程怎么写
2023-11-20

react dva实现的代码怎么编写

今天就跟大家聊聊有关react dva实现的代码怎么编写,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。dvadva是一个基于redux和redux-saga的数据流方案,然后为了简化
2023-06-25

Nginx+uwsgi+Django部署代码怎么编写

Nginx+uwsgi+Django部署代码怎么编写,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。Nginx+uwsgi+Django部署代码安装uwsgi1.
2023-06-04

Eclipse怎么提高代码编写效率

使用快捷键:熟练掌握Eclipse的快捷键可以大大提高编写代码的效率。例如Ctrl + Space可以自动补全代码,Ctrl + Shift + O可以导入缺失的包,Ctrl + Shift + F可以格式化代码等。使用代码模板:Eclip
Eclipse怎么提高代码编写效率
2024-04-03

c语言中helloworld怎么编写代码

在 c 语言中,编写 "hello, world!" 程序的步骤包括:创建源文件 "hello.c"。包含头文件 。定义主函数 main()。使用 printf() 输出 "hello, world!"。返回 0 表示程序成功执行。C 语言
c语言中helloworld怎么编写代码
2024-04-05

C++开发注意事项:避免C++代码中的编码规范问题

在进行C++开发时,除了关注功能实现和性能优化等方面的问题外,开发人员还需要注意代码的编码规范。良好的编码规范不仅可以提高代码的可读性和可维护性,还有助于减少错误和增加代码的一致性。本文将介绍一些常见的C++开发注意事项,帮助开发人员避免编
C++开发注意事项:避免C++代码中的编码规范问题
2023-11-22

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录