浅谈pandas中对nan空值的判断和陷阱

2024-04-02 19:55

短信预约 -IT技能 免费直播动态提醒

pandas基于numpy，所以其中的空值nan和numpy.nan是等价的。numpy中的nan并不是空对象，其实际上是numpy.float64对象，所以我们不能误认为其是空对象，从而用bool(np.nan)去判断是否为空值，这是不对的。

对于pandas中的空值，我们该如何判断，并且有哪些我们容易掉进去的陷阱，即不能用怎么样的方式去判断呢？

可以判断pandas中单个空值对象的方式：

1、利用pd.isnull(),pd.isna();

2、利用np.isnan();

3、利用is表达式；

4、利用in表达式。

不可以用来判断pandas单个空值对象的方式：

1、不可直接用==表达式判断；

2、不可直接用bool表达式判断；

3、不可直接用if语句判断。

示例：


import pandas as pd
import numpy as np 
na=np.nan 
# 可以用来判断空值的方式
pd.isnull(na) # True
pd.isna(na) # True
np.isnan(na) # True
na is np.nan # True
na in [np.nan] # True 
 
# 不可以直接用来判断的方式，即以下结果和我们预期不一样
na == np.nan # False
bool(na) # True
if na:
  print('na is not null') # Output: na is not null 
 
# 不可以直接用python内置函数any和all
any([na]) # True
all([na]) #True

总结

numpy.nan是一个numpy.float64的非空对象，所以不能直接用bool表达式去判断，故一切依赖于布尔表达式的判断方式都不行，比如if语句。

对于pandas中空值的判断，我们只能通过pandas或者numpy的函数和is表达式去判断，不能用python的内置函数any或all判断。

比较奇怪的一点是pandas中空值的判断可以用is表达式判断，但是不能用==表达式判断。我们知道，对于is表达式，如果返回True，表示这两个引用指向的是同一个内存对象，即内存地址是一样的，一般同一个对象的不同引用的值也应该是相等的，所以一般is表达式为True，那么==表达式也为True。

但是对于numpy.nan对象显然不是这样的，因为其可以用is表达式判断，即当is表达式为True时，但==表达式为False，这说明虽然不同numpy.nan变量引用指向的是同一个内存地址，但是其具有自己的值属性，值是不一样的，所以不能用==来判断，这点需要注意。

补充：Pandas+Numpy 数据中空值的处理操作：判断、查找、填充及删除

本文整理了数据中空值的处理操作，主要内容如下：

为了便于描述，定义本文示例数据为如下结构：


df = pd.DataFrame([[1, np.nan], [np.nan, 4], [5,6],[np.nan,7]],columns=["A","B"])
df #定义示例数据df

判断数据中是否有空值

pandas isnull()函数


df.isnull()  #返回df中各元素是否为空的同df大小的数据框 
df["A"].isnull() #判断A列中空值情况 
df[["A","B"]].isnull() # 指定多列进行空值判断，对于本文实例，下述代码效果同df.isnull()

pandas notnull()函数


df.notnull()  #判断df中各元素是否 不是 空值 
df["A"].isnull() #判断A列中非空值情况 
df[["A","B"]].isnull() # 指定多列进行非空值判断，对于本文实例，下述代码效果同df.notnull()

numpy np.isnan() 函数


np.isnan(df)  # 等同于df.isnull() 
np.isnan(df["A"])  # 等同于 df["A"].isnull() 
np.isnan(df[["A","B"]]) # 等同于 df[["A","B"]].isnull()

统计空值/非空值数量


df.isnull().sum() # 统计每列的空值数量 
df.notnull().sum() # 统计每列的非空值数量 
 
df["A"].count()   # A列 非空数量
df.count()     # 统计所有列的非空值数量
df.count(axis=1)  # 每行非空值数量，axis=1 
df["A"].sum()   # A列 元素数值之和

根据空值筛选数据


# 筛选出A列为空的所有行
df[df.A.isnull()]  
df[df["A"].isnull()] 
 
# 筛选出A列非空的所有行
df[df.A.notnull()]  
df[df["A"].notnull()]    
 
# 筛选出df中存在空值的行
df[df.isnull().values==True]

查找空值索引


np.where(np.isnan(df))  # df中空值所在的行索引及列索引 
np.where(np.isnan(df.A))  # df中A列空值所在的行索引

删除空值 dropna()函数


df.dropna()  # 删除存在空值的行，默认axis=0按行，how=any每行存在一个空值就执行删除行操作 
df.dropna(axis=1) # 删除存在空值的列 
df.dropna(how="all") # 删除所有列都为空值的特定行 
df.dropna(how = "any")  # 删除存在空值的行
 
# 对特定列空值进行删除 
df.dropna(how="any",subset=["A"]) # 删除A列中存在空值的行
 df.dropna(how="any",subset=["A","B"]) # 删除A,B列中只要有一列存在空值的行
 
#将删除操作作用于原数据，修改替换原数据
 df.dropna(how="all",subset=["A","B"],inplace=True) # 删除A,B列都为空值的行,并替换原数据

填充空值fillna()函数


# 用指定的数字来填充
df.fillna(0)  # 用0来填充df中的空值
 
# 用指定的函数统计值来填充
df.fillna(df.mean()) # 用df中数据的平均值来填充空值 
df.fillna(df.mean()["A"])  #指定用A列数据均值来填充df中空值 
df.fillna(df.sum())  # 用df中数据的和来填充空值
 
# 用字典来填充
values = {'A': 0, 'B': 1}  # A列空值用0填充，B列空值用1填充
df.fillna(value=values)  
 
# 用指定字符串来填充空值
df.fillna("unkown")
 
# 不同的填充方式{‘backfill', ‘bfill', ‘pad', ‘ffill', None}
# 每列的空值，用其列下方非空数值填充
df.fillna(method="backfill") 
df.fillna(method="bfill")  # 同backfill
# 每列的空值，用其所在列上方非空数值填充，若上方没有元素，保持空值
df.fillna(method="ffill") 
df.fillna(method="pad")   # 同 ffill
 
#limit参数设置填充空值的最大个数
df.fillna(0,limit=1) # 每列最多填充1个空值，超过范围的空值依然为空
 
#inplace参数空值是否修改原数据df
df.fillna(0,inplace=True) # inplace为true，将修改作用于原数据

以上为个人经验，希望能给大家一个参考，也希望大家多多支持编程网。如有错误或未考虑完全的地方，望不吝赐教。

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

阅读原文内容投诉

浅谈pandas中对nan空值的判断和陷阱

下载Word文档到电脑，方便收藏和打印～

下载Word文档

浅谈pandas中对nan空值的判断和陷阱

可以判断pandas中单个空值对象的方式：

不可以用来判断pandas单个空值对象的方式：

总结

判断数据中是否有空值

统计空值/非空值数量

根据空值筛选数据

查找空值索引

删除空值 dropna()函数

填充空值fillna()函数

浅谈pandas中对nan空值的判断和陷阱

相关文章

猜你喜欢

浅谈pandas中对nan空值的判断和陷阱

热门标签

编程热搜

Python 学习之路 - Python

chatgpt的中文全称是什么

C/C++中extern函数使用详解

C/C++可变参数的使用

css样式文件该放在哪里

php中数组下标必须是连续的吗

Python 3 教程

Python pip包管理

ubuntu如何重新编译内核

改善Java代码之慎用java动态编译

编程资源站

2021年下半年软考高级信息系统项目管理师高频考点精选资料

2021下半年软考高级信息系统技术知识点记忆口诀精选资料

2021下半年软考《信息系统项目管理师》考试真题及答案精选资料

2021下半年软考高级考试备考攻略精选资料

2021年软考高级《信息系统项目管理师》巩固练习题汇总精选资料

2021下半年软考高级信息系统项目管理师30个易考知识点汇总精选资料

2021下半年软考高级知识点这样记，还担心记不住吗精选资料

2021年下半年软考高级考试重点汇总精选资料

2021下半年软考高级信息系统项目管理师计算公式汇总精选资料

2021年下半年软考高级《信息系统项目管理师》模拟试题精选资料

信息系统项目管理师选择题每日一练（2024）历年试题

2023年下半年信息系统项目管理师综合知识真题演练历年试题

目录

浅谈pandas中对nan空值的判断和陷阱

可以判断pandas中单个空值对象的方式：

不可以用来判断pandas单个空值对象的方式：

总结

判断数据中是否有空值

统计空值/非空值数量

根据空值筛选数据

查找空值索引

删除空值 dropna()函数

填充空值fillna()函数

浅谈pandas中对nan空值的判断和陷阱

相关文章

猜你喜欢

浅谈pandas中对nan空值的判断和陷阱

热门标签

编程热搜

编程资源站

目录

感谢您的提交，我们服务专员将在30分钟内给您回复