我的编程空间,编程开发者的网络收藏夹
学习永远不晚

Python查询缺失值的4种方法总结

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

Python查询缺失值的4种方法总结

在我们日常接触到的Python中,狭义的缺失值一般指DataFrame中的NaN。广义的话,可以分为三种。

  • 缺失值:在Pandas中的缺失值有三种:np.nan (Not a Number) 、 None 和 pd.NaT(时间格式的空值,注意大小写不能错)
  • 空值:空值在Pandas中指的是空字符串"";
  • 最后一类是导入的Excel等文件中,原本用于表示缺失值的字符“-”、“?”等。

今天聊聊Python中查询缺失值的4种方法。

缺失值 NaN ①

在Pandas中查询缺失值,最常用的⽅法就是isnull(),返回True表示此处为缺失值。

我们可以将其与any()⽅法搭配使用来查询存在缺失值的行,也可以与sum()⽅法搭配使用来查询存在缺失值的列。

  • isnull():对于缺失值,返回True;对于⾮缺失值,返回False。
  • any():⼀个序列中有⼀个True,则返回True,否则返回False。
  • sum():对序列进行求和计算。

在交互式环境中输入如下命令:

df.isnull()

输出:

图片

在交互式环境中输入如下命令:

df.isnull().any(axis=1)

输出:

图片

在交互式环境中输入如下命令:

df.isnull().sum()

输出:

图片

注:isna()和isnull()的用法是相同的,这里不再演示

缺失值 NaN ②

由于在Pandas中isnull()方法返回True表示此处为缺失值,所以我们可以对数据集进行切片也可实现找到缺失值。

在交互式环境中输入如下命令:

df[df.isnull().values==True]

输出:

图片

注意:如果某行有多个值是空值,则会重复次数出现,所以我们可以利用df[df.isnull().values==True].drop_duplicates()来去重。

另外,notnull()方法是与isnull()相对应的,使用它可以直接查询非缺失值的数据行。

df[df["A列"].notnull()]

输出:

图片

空值

空值在Pandas中指的是空字符串"",我们同样可以对数据集进行切片找到空值。

在交互式环境中输入如下命令:

df[df["B列"] == ""]

输出:

图片

此外,也可以利用空值与正常值的区别来区分两者,比如isnumeric()方法检测字符串是否只由数字组成。

在交互式环境中输入如下命令:

df[df["B列"].str.isnumeric() == False ]

输出:

图片

如上所示,同样查询到了数据集中的空值。

字符“-”、“?”等

很多时候,我们要处理的是本地的历史数据文件,在这些Excel中往往并不规范,比如它们有可能会使用“*”、“?”、“—”、“!”等等字符来表示缺失值。

对于这类文本,我们可以使用正则表达式来匹配缺失值。

import re
df[df["C列"].apply(lambda x: len(re.findall('NA|[*|?|!|#|-]', x)) != 0)]

输出:

图片

如上所示,我自定义了匿名函数lambda,作用是在文本列的每一行中查找以下文本值:“NA”、“*”、“?” 、“!” 、“#”、“-”,并检查它找到的列表的长度。如果列表不为零,则表示找到了代表缺失值的字符,因此该行中至少有一个缺失值。

df[df["D列"].apply(lambda x: len(re.findall('NA|[*|?|!|#|-]', x)) != 0)]

输出:

图片

我们可以对不同列都进行同样的缺失值查询,另外也可以根据自己的实际情况,替换正则表达式中代表缺失值的字符。

到此这篇关于Python查询缺失值的4种方法总结的文章就介绍到这了,更多相关Python查询缺失值内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

Python查询缺失值的4种方法总结

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

pandas检查和填充缺失值的N种方法总结

本文主要介绍了pandas检查和填充缺失值的N种方法总结,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
2023-01-28

python缺失值的解决方法总结

1、解决方法 (1)忽视元组。 缺少类别标签时,通常这样做(假设挖掘任务与分类有关),除非元组有多个属性缺失值,否则该方法不太有效。当个属性缺值的百分比变化很大时,其性能特别差。 (2)人工填写缺失值。 一般来说,这种方法需要很长时间,当数
2022-06-02

Oracle中查询表结构的6种方法总结

目录方法一:方法二:方法三:方法四:方法五:方法六:总结 方法一:在【命令窗口】下输入,语法:desc 表名DESC DUAL;--或DESCRIBE TB_STUDENT;注:可以使用PLSQL Developer工具内的命令窗
2023-04-12

python字典取值的几种方法总结

这篇文章主要介绍了python字典取值的几种方法总结,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
2023-05-15

Android中监听Home键的4种方法总结

昨天需要处理一个问题,需要监听home键。最开始想到使用onKeydonwn这个方法。但是发现home不能这样处理,onKeydonwn可以处理菜单键和back键,但home不能。因为home键是系统键,情况特殊一些。 看了一下网上的资料,
2022-06-06

sql跨表查询的三种方案总结

目录前言方案一:连接多个库,同步执行查询优点缺点代码执行方案二:在主数据库增加冗余表,通过定时更新cLdNwV,造成同库联表查询优点缺点相似实现场景方案三:dbLink本地连接多个库,在本地进行数据分析优点缺点前言最近又个朋友问我,如何进
2022-08-11

Python数据预处理时缺失值的不同处理方式总结

在使用python做数据分析的时候,经常需要先对数据做统一化的处理,缺失值的处理是经常会使用到的。今天介绍的是使用差补法/均值/固定值等不同的方式完成数据填充从而保证数据的完整性,感兴趣的可以了解一下
2022-12-22

LINUX查看进程的4种方法(小结)

进程是在 CPU 及内存中运行的程序代码,而每个进程可以创建一个或多个进程(父子进程)。 **查看进程方法:** 第一种:ps auxps命令用于报告当前系统的进程状态。可以搭配kill指令随时中断、删除不必要的程序。ps命令是最基本同时也
2022-06-03

VUE3传值相关的6种方法总结

件间传参是vue开发过程中一个很常见的应用,对于我们后端开发来说,每次看到这种组件传参的代码就一头雾水,下面这篇文章主要给大家介绍了关于VUE3传值相关的6种方法,需要的朋友可以参考下
2023-05-17

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录