我的编程空间,编程开发者的网络收藏夹
学习永远不晚

怎么使用Python pandas找出删除重复的数据

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

怎么使用Python pandas找出删除重复的数据

这篇文章主要介绍了怎么使用Python pandas找出删除重复的数据的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇怎么使用Python pandas找出删除重复的数据文章都会有所收获,下面我们一起来看看吧。

前言

当我们使用pandas处理数据的时候,经常会遇到数据重复的问题,如何找出重复数据进而分析重复原因,或者如何直接删除重复的数据是一个关键的步骤,pandas提供了很方便的方法:duplicated()和drop_duplicates()。

一、duplicated()

duplicated()可以被用在DataFrame的三种情况下,分别是pandas.DataFrame.duplicated、pandas.Series.duplicated和pandas.Index.duplicated。他们的用法都类似,前两个会返回一个布尔值的Series,最后一个会返回一个布尔值的numpy.ndarray。

DataFrame.duplicated(subset=None, keep=‘first’)

subset:默认为None,需要标记重复的标签或标签序列

keep:默认为‘first’,如何标记重复标签

  • first:将除第一次出现以外的重复数据标记为True

  • last:将除最后一次出现以外的重复数据标记为True

  • False:将所有重复的项都标记为True(不管是不是第一次出现)

Series.duplicated(keep=‘first’)

keep:与DataFrame.duplicated的keep相同

Index.duplicated(keep=‘first’)

keep:与DataFrame.duplicated的keep相同

例子:

import pandas as pddf = pd.DataFrame({    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],    'rating': [4, 4, 3.5, 15, 5]})df

    brand style  rating
0  Yum Yum   cup     4.0
1  Yum Yum   cup     4.0
2  Indomie   cup     3.5
3  Indomie  pack    15.0
4  Indomie  pack     5.0 

df.duplicated()

0    False
1     True
2    False
3    False
4    False
dtype: bool

df.duplicated(keep='last')

0     True
1    False
2    False
3    False
4    False
dtype: bool

df.duplicated(keep=False)

0     True
1     True
2    False
3    False
4    False
dtype: bool

df.duplicated(subset=['brand'])

0    False
1     True
2    False
3     True
4     True
dtype: bool

关于Index的重复标记:

df = df.set_index('brand')df

        style  rating
brand                
Yum Yum   cup     4.0
Yum Yum   cup     4.0
Indomie   cup     3.5
Indomie  pack    15.0
Indomie  pack     5.0

df.index.duplicated()
array([False,  True, False,  True,  True])

二、drop_duplicates()

与duplicated()类似,drop_duplicates()是直接把重复值给删掉。下面只会介绍一些含义不同的参数。

DataFrame.drop_duplicates(subset=None, keep=‘first’, inplace=False)

  • subset:与duplicated()中相同

  • keep:与duplicated()中相同

  • inplace:与pandas其他函数的inplace相同,选择是修改现有数据还是返回新的数据

Series.drop_duplicates()相比Series.duplicated()也是多了一个inplace参数,和上诉介绍一样,Index.drop_duplicates()与Index.duplicated()参数相同就不做赘述。下面是例子:

df = pd.DataFrame({    'brand': ['Yum Yum', 'Yum Yum', 'Indomie', 'Indomie', 'Indomie'],    'style': ['cup', 'cup', 'cup', 'pack', 'pack'],    'rating': [4, 4, 3.5, 15, 5]})df

     brand style  rating
0  Yum Yum   cup     4.0
1  Yum Yum   cup     4.0
2  Indomie   cup     3.5
3  Indomie  pack    15.0
4  Indomie  pack     5.0

df.drop_duplicates()

     brand style  rating
0  Yum Yum   cup     4.0
2  Indomie   cup     3.5
3  Indomie  pack    15.0
4  Indomie  pack     5.0

df.drop_duplicates(inplace = True)df

     brand style  rating
0  Yum Yum   cup     4.0
2  Indomie   cup     3.5
3  Indomie  pack    15.0
4  Indomie  pack     5.0

关于“怎么使用Python pandas找出删除重复的数据”这篇文章的内容就介绍到这里,感谢各位的阅读!相信大家对“怎么使用Python pandas找出删除重复的数据”知识都有一定的了解,大家如果还想学习更多知识,欢迎关注编程网行业资讯频道。

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

怎么使用Python pandas找出删除重复的数据

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

怎么使用Python pandas找出删除重复的数据

这篇文章主要介绍了怎么使用Python pandas找出删除重复的数据的相关知识,内容详细易懂,操作简单快捷,具有一定借鉴价值,相信大家阅读完这篇怎么使用Python pandas找出删除重复的数据文章都会有所收获,下面我们一起来看看吧。前
2023-07-02

sql怎么找出重复的数据

要找出重复的数据,可以使用SQL语句中的GROUP BY和HAVING子句。下面是一个示例,假设有一个名为employees的表,它包含了员工的信息,包括员工ID和姓名。要找出重复的姓名,可以使用以下SQL语句:SELECT 姓名, C
2023-10-22

使用shell脚本怎么删除mysql中的重复数据

这期内容当中小编将会给大家带来有关使用shell脚本怎么删除mysql中的重复数据,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。#!/bin/sh# delete all companys duplica
2023-06-09

oracle怎么删除完全重复的数据

要删除完全重复的数据,可以使用Oracle的DELETE语句和自连接来实现。以下是一个示例:```sqlDELETE FROM your_tableWHERE rowid NOT IN (SELECT MIN(rowid)FROM your
2023-08-15

mysql怎么删除字段重复的数据

要删除MySQL表中重复的数据,可以使用以下步骤:首先,使用 SELECT 语句查询表中的重复数据,并确定哪些字段是重复的。SELECT column1, column2, COUNT(*)FROM your_tableGROUP BY
mysql怎么删除字段重复的数据
2024-04-09

使用Python怎么删除列表重复元素

本篇文章为大家展示了使用Python怎么删除列表重复元素,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。python有哪些常用库python常用的库:1.requesuts;2.scrapy;3.pi
2023-06-14

怎么在mysql数据库中删除重复的数据

本篇文章为大家展示了怎么在mysql数据库中删除重复的数据,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。1.问题引入假设一个场景,一张用户表,包含3个字段。id,identity_id,name。现
2023-06-07

重复数据删除的使用和关键技术

这篇文章主要讲的是重复数据的概念原理和怎样使用重复数据删除技术。重复数据删除是一个很热门的存储技术。希望本篇文章多你们有用,大家要认真看噢~今天的分享就到这了,也不知道对大家有用不,如果有用的话,那就点个赞吧!如果哪部分知识点欠缺,欢迎各位朋友进行补充哦~更多精彩的内容,就在编程学习网教育,还不赶紧行动?等着你们哟~
重复数据删除的使用和关键技术
2024-04-23

postgresql怎么删除表中重复数据的行

在PostgreSQL中,你可以使用以下方法删除表中重复数据的行:找出重复数据的行:SELECT col1, col2, ..., coln, COUNT(*) FROM table_nameGROUP BY col1, col2, .
postgresql怎么删除表中重复数据的行
2024-04-09

python怎么删除数组中重复的元素

可以通过使用set()函数或者使用列表推导式来删除数组中的重复元素。方法一:使用set()函数```pythona = [1, 2, 3, 3, 4, 5, 5]b = list(set(a))print(b)```输出:```[1, 2,
2023-08-19

Python不修改数组怎么找出重复的数字

这篇“Python不修改数组怎么找出重复的数字”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“Python不修改数组怎么找出重
2023-06-30

使用python怎么删除文件夹中的重复图片

这篇文章给大家介绍使用python怎么删除文件夹中的重复图片,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。第一部分:判断两张图片是否相同要查找重复的图片,必然绕不开判断两张图片是否相同。判断两张图片简单呀!图片可以看成
2023-06-15

Python中怎么删除排序数组的重复项

这期内容当中小编将会给大家带来有关Python中怎么删除排序数组的重复项,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。问题描述:给定一个排序数组,你需要在 原地 删除重复出现的元素,使得每个元素只出现一次
2023-06-16

python怎么去除list中重复的数据

可以使用set()函数来去除list中的重复数据。set()函数会自动去除重复的数据,然后再转换回list。以下是一个示例代码:```pythonmy_list = [1, 2, 3, 3, 4, 5, 5, 6]my_list = lis
2023-08-11

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录