我的编程空间,编程开发者的网络收藏夹
学习永远不晚

pandas数据清洗如何实现删除

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

pandas数据清洗如何实现删除

这篇文章主要介绍“pandas数据清洗如何实现删除”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“pandas数据清洗如何实现删除”文章能帮助大家解决问题。

准备工作(导入库、导入数据)

import pandas as pdimport matplotlib.pyplot as pltimport numpy as npimport seaborn as  snssns.set_style("darkgrid")
list_csv = ['Amazon_top_selling_book.csv','breast_cancer_wisconsin.csv','diamonds.csv','insurance.csv','netflix_titles.csv','penguins.csv',           'titanic.csv','winequality-red.csv']dic_path = r'C:\Users\pandas\Desktop\task\228datasets\datasets'part_data = pd.read_csv(dic_path+'\\'+list_csv[4])part_data
 show_idtypetitledirectorcastcountrydate_addedrelease_yearratingdurationlisted_indescription
0s1MovieDick Johnson Is DeadKirsten JohnsonNaNUnited StatesSeptember 25, 20212020PG-1390 minDocumentariesAs her father nears the end of his life, filmm...
1s2TV ShowBlood & WaterNaNAma Qamata,
Khosi Ngema,
Gail Mabalane,
Thaban...
South AfricaSeptember 24, 20212021TV-MA2 SeasonsInternational TV Shows,
TV Dramas,
TV Mysteries
After crossing paths at a party, a Cape Town t...
2s3TV ShowGanglandsJulien LeclercqSami Bouajila,
Tracy Gotoas,
Samuel Jouy,
Nabi...
NaNSeptember 24, 20212021TV-MA1 SeasonCrime TV Shows,
International TV Shows,
TV Act...
To protect his family from a powerful drug lor...
3s4TV ShowJailbirds New OrleansNaNNaNNaNSeptember 24, 20212021TV-MA1 SeasonDocuseries, Reality TVFeuds, flirtations and toilet talk go down amo...
4s5TV ShowKota FactoryNaNMayur More,
Jitendra Kumar,
Ranjan Raj,
Alam K...
IndiaSeptember 24, 20212021TV-MA2 SeasonsInternational TV Shows,
Romantic TV Shows,
TV ...
In a city of coaching centers known to train I...
.......................................

8807 rows × 12 columns

检测数据情况

Hint:该函数用于检测任意DataFrame中缺失值情况

def missing_values_table(df):        mis_val = df.isnull().sum()        mis_val_percent = 100 * df.isnull().sum() / len(df)        mis_val_table = pd.concat([mis_val, mis_val_percent], axis=1)        mis_val_table_ren_columns = mis_val_table.rename(        columns = {0 : 'Missing Values', 1 : '% of Total Values'})        mis_val_table_ren_columns = mis_val_table_ren_columns[            mis_val_table_ren_columns.iloc[:,1] != 0].sort_values(        '% of Total Values', ascending=False).round(1)        print ("Your selected dataframe has " + str(df.shape[1]) + " columns.\n"                  "There are " + str(mis_val_table_ren_columns.shape[0]) +              " columns that have missing values.")        return mis_val_table_ren_columns
missing_values_table(part_data)

Your selected dataframe has 12 columns.
There are 6 columns that have missing values.

 Missing Values% of Total Values
director263429.9
country8319.4
cast8259.4
date_added100.1
rating40.0
duration30.0

DataFrame.drop(labels=None,axis=0, index=None, columns=None, inplace=False)

参数说明:

  • labels 就是要删除的行列的名字,用列表给定

  • axis 默认为0,指删除行,因此删除columns时要指定axis=1;

  • index 直接指定要删除的行

  • columns 直接指定要删除的列

  • inplace=False,默认该删除操作不改变原数据,而是返回一个执行删除操作后的新dataframe;

  • inplace=True,则会直接在原数据上进行删除操作,删除后无法返回。

方式一:删除指定行或列

labels+axis

demo = part_data.drop(['director'], axis=1)missing_values_table(demo)

Your selected dataframe has 11 columns.
There are 5 columns that have missing values.

 Missing Values% of Total Values
country8319.4
cast8259.4
date_added100.1
rating40.0
duration30.0
方式二:利用boolean删除满足条件元素所在的行

df = df.drop(df[].index)

# 删除release_year年份在2009年之前的行demo = part_data.drop(part_data[part_data["release_year"]<2009].index)demo.shape

(7624, 12)

关于“pandas数据清洗如何实现删除”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识,可以关注编程网行业资讯频道,小编每天都会为大家更新不同的知识点。

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

pandas数据清洗如何实现删除

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

pandas数据清洗如何实现删除

这篇文章主要介绍“pandas数据清洗如何实现删除”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“pandas数据清洗如何实现删除”文章能帮助大家解决问题。准备工作(导入库、导入数据)import p
2023-07-02

如何使用 Pandas 进行数据清洗?如何保证数据清洗的效果?

考虑使用自动化工具和框架来简化数据清洗过程。例如,使用 Apache Airflow 或 Prefect 来自动化数据管道,确保数据清洗步骤的一致性和可重复性。

pandas实现数据清洗有哪些方法

pandas实现数据清洗的方法有:1、缺失值处理;2、重复值处理;3、数据类型转换;4、异常值处理;5、数据规范化;6、数据筛选;7、数据聚合和分组;8、数据透视表等。详细介绍:1、缺失值处理,Pandas提供了多种处理缺失值的方法,对于缺
pandas实现数据清洗有哪些方法
2023-11-22

Python如何实现数据清洗

小编给大家分享一下Python如何实现数据清洗,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!数据清洗小工具箱在下面的代码片段中,数据清洗代码被封装在了一些函数中,代码的目的十分直观。你可以直接使用这些代码,无需将它们嵌入到
2023-06-28

总结了Pandas实现数据清洗的7种方式

最近在做“对比excel,学习pandas系列”,今天给大家介绍一下excel和pandas实现数据清洗的种方式。

python如何清洗数据

在Python中,可以使用各种库和工具来清洗数据。下面是一些常用的方法:1. 数据去重:使用pandas库的`drop_duplicates()`函数可以去除重复的数据行。```pythonimport pandas as pddf = p
2023-09-12

Python怎么实现数据清洗

本文小编为大家详细介绍“Python怎么实现数据清洗”,内容详细,步骤清晰,细节处理妥当,希望这篇“Python怎么实现数据清洗”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。这里数据清洗需要用到的库是pandas
2023-07-06

如何在Couchbase中实现数据清洗和转换

在Couchbase中实现数据清洗和转换可以通过以下几种方法:使用N1QL查询语言:N1QL是Couchbase提供的SQL-like查询语言,可以通过N1QL查询来对数据进行清洗和转换。您可以使用N1QL查询来过滤、整理和转换数据,以符合
如何在Couchbase中实现数据清洗和转换
2024-04-09

如何用 Python 清洗数据?

在做数据分析之前,我们首先要明确数据分析的目标,然后 应用数据分析的思维,对目标进行细分,再采取相应的行动。

Python如何实现Excel数据的探索和清洗

这篇文章主要介绍了Python如何实现Excel数据的探索和清洗,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。python是什么意思Python是一种跨平台的、具有解释性、编
2023-06-14

php如何实现删除数据

这篇文章主要介绍了php如何实现删除数据,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。php实现删除数据的方法:1、创建一个PHP示例文件;2、连接数据库;3、通过“dele
2023-06-25

pandas删除部分数据后重新生成索引如何实现

这篇文章主要介绍“pandas删除部分数据后重新生成索引如何实现”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“pandas删除部分数据后重新生成索引如何实现”文章能帮助大家解决问题。pandas删除
2023-07-02

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录