我的编程空间,编程开发者的网络收藏夹
学习永远不晚

30 个 Python 函数,加速数据分析处理速度

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

30 个 Python 函数,加速数据分析处理速度

前言:

Pandas Python 中最广泛使用的数据分析和操作库。它提供了许多功能和方法,可以加快 「数据分析」 和 「预处理」 步骤。

为了更好的学习 Python,我将以客户流失数据集为例,分享 「30」 个在数据分析过程中最常使用的函数和方法。

数据如下所示:


import numpy as np
import pandas as pd
df = pd.read_csv("Churn_Modelling.csv")
print(df.shape)
df.columns


结果输出:

(10000, 14)
Index(['RowNumber', 'CustomerId', 'Surname', 'CreditScore', 'Geography','Gender', 'Age', 'Tenure', 'Balance', 'NumOfProducts', 'HasCrCard','IsActiveMember', 'EstimatedSalary', 'Exited'],dtype='object')

1.删除列


df.drop(['RowNumber', 'CustomerId', 'Surname', 'CreditScore'], axis=1, inplace=True)
print(df[:2])
print(df.shape)


结果输出:

  Geography  Gender  Age  Tenure  Balance  NumOfProducts  HasCrCard 
0    France  Female   42       2      0.0              1          1  

   IsActiveMember  EstimatedSalary  Exited 
0               1        101348.88       1 
(10000, 10)

说明:「axis」 参数设置为 1 以放置列,0 设置为行。「inplace=True」 参数设置为 True 以保存更改。我们减了 4 列,因此列数从 14 个减少到 10 列。

2.选择特定列

我们从 csv 文件中读取部分列数据。可以使用 usecols 参数。


df_spec = pd.read_csv("Churn_Modelling.csv", usecols=['Gender', 'Age', 'Tenure', 'Balance'])
df_spec.head()


3.nrows

可以使用 nrows 参数,创建了一个包含 csv 文件前 5000 行的数据帧。还可以使用 skiprows 参数从文件末尾选择行。Skiprows=5000 表示我们将在读取 csv 文件时跳过前 5000 行。


df_partial = pd.read_csv("Churn_Modelling.csv", nrows=5000)
print(df_partial.shape)


4.样品

创建数据框后,我们可能需要一个小样本来测试数据。我们可以使用 nfrac 参数来确定样本大小。


df= pd.read_csv("Churn_Modelling.csv", usecols=['Gender', 'Age', 'Tenure', 'Balance'])
df_sample = df.sample(n=1000)
df_sample2 = df.sample(frac=0.1)


5.检查缺失值

isna 函数确定数据帧中缺失的值。通过将 isna sum 函数一起使用,我们可以看到每列中缺失值的数量。


df.isna().sum()


6.使用 loc 和 iloc 添加缺失值

使用 loc 和 iloc 添加缺失值,两者区别如下:

  • loc:选择带标签
  • iloc:选择索引

我们首先创建 20 个随机索引进行选择


missing_index = np.random.randint(10000, size=20)


我们将使用 loc 将某些值更改为 np.nan(缺失值)。


df.loc[missing_index, ['Balance','Geography']] = np.nan


"Balance"和"Geography"列中缺少 20 个值。让我们用 iloc 做另一个示例。


df.iloc[missing_index, -1] = np.nan


7.填充缺失值

fillna 函数用于填充缺失的值。它提供了许多选项。我们可以使用特定值、聚合函数(例如均值)或上一个或下一个值。


avg = df['Balance'].mean()
df['Balance'].fillna(value=avg, inplace=True)


fillna 函数的方法参数可用于根据列中的上一个或下一个值(例如方法="ffill")填充缺失值。它可以对顺序数据(例如时间序列)非常有用。

8.删除缺失值

处理缺失值的另一个方法是删除它们。以下代码将删除具有任何缺失值的行。


df.dropna(axis=0, how='any', inplace=True)


9.根据条件选择行

在某些情况下,我们需要适合某些条件的观测值(即行)


france_churn = df[(df.Geography == 'France') & (df.Exited == 1)]
france_churn.Geography.value_counts()


10.用查询描述条件

查询函数提供了一种更灵活的传递条件的方法。我们可以用字符串来描述它们。


df2 = df.query('80000 < Balance < 100000')
# 让我们通过绘制平衡列的直方图来确认结果。
df2['Balance'].plot(kind='hist', figsize=(8,5))


11.用 isin 描述条件

条件可能有多个值。在这种情况下,最好使用 isin 方法,而不是单独编写值。


df[df['Tenure'].isin([4,6,9,10])][:3]


12.Groupby 函数

Pandas Groupby 函数是一个多功能且易于使用的功能,可帮助获取数据概述。它使浏览数据集和揭示变量之间的基本关系更加容易。

我们将做几个组比函数的示例。让我们从简单的开始。以下代码将基于 GeographyGender 组合对行进行分组,然后给出每个组的平均流失率。


df[['Geography','Gender','Exited']].groupby(['Geography','Gender']).mean()


13.Groupby与聚合函数结合

agg 函数允许在组上应用多个聚合函数,函数的列表作为参数传递。


df[['Geography','Gender','Exited']].groupby(['Geography','Gender']).agg(['mean','count'])


14.对不同的群体应用不同的聚合函数


df_summary = df[['Geography','Exited','Balance']].groupby('Geography').agg({'Exited':'sum', 'Balance':'mean'})
df_summary.rename(columns={'Exited':'# of churned customers', 'Balance':'Average Balance of Customers'},inplace=True)


此外,「NamedAgg 函数」允许重命名聚合中的列


import pandas as pd
df_summary = df[['Geography','Exited','Balance']].groupby('Geography').agg(Number_of_churned_customers = pd.NamedAgg('Exited', 'sum'),Average_balance_of_customers = pd.NamedAgg('Balance', 'mean'))
print(df_summary)


15.重置索引

您是否已经注意到上图的数据格式了。我们可以通过重置索引来更改它。


print(df_summary.reset_index())


图片

16.重置并删除原索引

在某些情况下,我们需要重置索引并同时删除原始索引。


df[['Geography','Exited','Balance']].sample(n=6).reset_index(drop=True)


17.将特定列设置为索引

我们可以将数据帧中的任何列设置为索引。


df_new.set_index('Geography')


18.插入新列


group = np.random.randint(10, size=6)
df_new['Group'] = group


19.where 函数

它用于根据条件替换行或列中的值。默认替换值为 NaN,但我们也可以指定要作为替换值。


df_new['Balance'] = df_new['Balance'].where(df_new['Group'] >= 6, 0)


20.等级函数

等级函数为值分配一个排名。让我们创建一个列,根据客户的余额对客户进行排名。


df_new['rank'] = df_new['Balance'].rank(method='first', ascending=False).astype('int')


21.列中的唯一值数

它使用分类变量时派上用场。我们可能需要检查唯一类别的数量。我们可以检查值计数函数返回的序列的大小或使用 nunique 函数。


df.Geography.nunique


22.内存使用情况

使用函数 memory_usage,这些值显示以字节为单位的内存.


df.memory_usage()


23.数据类型转换

默认情况下,分类数据与对象数据类型一起存储。但是,它可能会导致不必要的内存使用,尤其是当分类变量具有较低的基数。

低基数意味着列与行数相比几乎没有唯一值。例如,地理列具有 3 个唯一值和 10000 行。

我们可以通过将其数据类型更改为"类别"来节省内存。


df['Geography'] = df['Geography'].astype('category')


24.替换值

替换函数可用于替换数据帧中的值。


df['Geography'].replace({0:'B1',1:'B2'})


25.绘制直方图

pandas 不是一个数据可视化库,但它使得创建基本绘图变得非常简单。

我发现使用 Pandas 创建基本绘图更容易,而不是使用其他数据可视化库。

让我们创建平衡列的直方图。

26.减少浮点数小数点

pandas 可能会为浮点数显示过多的小数点。我们可以轻松地调整它。


df['Balance'].plot(kind='hist', figsize=(10,6), 
title='Customer Balance')


27.更改显示选项

我们可以更改各种参数的默认显示选项,而不是每次手动调整显示选项。

  • get_option:返回当前选项
  • set_option:更改选项 让我们将小数点的显示选项更改为 2。

pd.set_option("display.precision", 2)


可能要更改的一些其他选项包括:

  • max_colwidth:列中显示的最大字符数
  • max_columns:要显示的最大列数
  • max_rows:要显示的最大行数

28.通过列计算百分比变化

pct_change用于计算序列中值的变化百分比。在计算时间序列或元素顺序数组中更改的百分比时,它很有用。


ser= pd.Series([2,4,5,6,72,4,6,72])
ser.pct_change()


29.基于字符串的筛选

我们可能需要根据文本数据(如客户名称)筛选观测值(行)。我已经在数据帧中添加了df_new名称。


df_new[df_new.Names.str.startswith('Mi')]


30.设置数据帧样式

我们可以通过使用返回 Style 对象的 Style 属性来实现此目的,它提供了许多用于格式化和显示数据框的选项。例如,我们可以突出显示最小值或最大值。

它还允许应用自定义样式函数。


df_new.style.highlight_max(axis=0, color='darkgreen')


到此这篇关于30 个 Python 函数,加速数据分析处理速度的文章就介绍到这了,更多相关Python 函数,加速数据分析处理速度内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

30 个 Python 函数,加速数据分析处理速度

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

Python函数加速数据分析处理速度的示例分析

Python函数加速数据分析处理速度的示例分析,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。前言:Pandas 是 Python 中最广泛使用的数据分析和操作库
2023-06-22

Numpy库常用函数大全:优化代码,加速数据处理速度

Numpy库是Python中一个重要的科学计算库,它提供了高效的多维数组对象以及丰富的函数库,可以帮助我们更加高效地进行数值计算和数据处理。本文将介绍一系列Numpy库中常用的函数,以及如何使用这些函数优化代码,加速数据处理速度。创建数组我
Numpy库常用函数大全:优化代码,加速数据处理速度
2024-01-19

大数据分析:使用Golang WaitGroup和协程加速处理

在大数据分析中,使用Golang中的`WaitGroup`和协程可以有效地加速处理过程。`WaitGroup`是一个计数信号量,用于等待一组协程完成执行。首先,我们可以将待处理的数据分成多个小块,并将每个小块的处理放在一个协程中执行。这样可
2023-10-08

提高Python数据分析速度的技巧有哪些

这篇文章主要介绍“提高Python数据分析速度的技巧有哪些”,在日常操作中,相信很多人在提高Python数据分析速度的技巧有哪些问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”提高Python数据分析速度的技巧
2023-06-02

加速Python数据分析的小技巧分别有哪些

这期内容当中小编将会给大家带来有关加速Python数据分析的小技巧分别有哪些,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。有时候,一点小小的黑客行为可以节省时间,挽救生命。一个小小的快捷方式或附加组件有时
2023-06-16

使用Python加速数据分析的10个简单技巧分别是什么

这期内容当中小编将会给大家带来有关使用Python加速数据分析的10个简单技巧分别是什么,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。提示和技巧,尤其是在编程领域,可能是非常有用的。有时,一个小技巧可以节
2023-06-16

CentOS Apache数据库处理如何加快PHP的执行速度

这篇文章将为大家详细讲解有关CentOS Apache数据库处理如何加快PHP的执行速度,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。CentOS Apache对于电脑使用的玩家的常用软件,
2023-06-16

怎么写Python代码提高数据处理脚本速度

这篇文章主要介绍“怎么写Python代码提高数据处理脚本速度”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“怎么写Python代码提高数据处理脚本速度”文章能帮助大家解决问题。普通Python处理数据
2023-06-29

如何使用C++实现并行数据处理以加速分析过程?

如何使用 c++++ 实现并行数据处理以加速分析过程?使用 openmp 并行编程技术:openmp 提供了创建和管理并行代码的编译器指令和运行时库。指定并行区域:使用 #pragma omp parallel for 或 #pragma
如何使用C++实现并行数据处理以加速分析过程?
2024-05-15

PHP7中的生成器:如何高效地处理大量数据和加速代码执行速度?

PHP7中的生成器:如何高效地处理大量数据和加速代码执行速度?随着互联网的发展,我们面对的数据量越来越庞大,针对大量数据的处理成为了开发人员的一项重要任务。而在PHP7中引入了生成器(Generator),它为我们提供了一种高效地处理大量数
2023-10-22

PHP7中的生成器:如何高效地处理大量数据和加速代码的执行速度?

PHP7中的生成器:如何高效地处理大量数据和加速代码的执行速度?概述:在PHP7中,引入了生成器(Generator)的概念,它是一种特殊的函数,可以按需生成数据流。生成器的出现在处理大量数据和提高代码执行速度方面,提供了一个非常有效的解决
2023-10-22

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录