我的编程空间,编程开发者的网络收藏夹
学习永远不晚

详解如何使用Python实现删除重复文件

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

详解如何使用Python实现删除重复文件

Python自动化办公之删除重复文件

思路介绍

两层判断:

1.先判断文件大小是否为相同,大小不同则不是重复文件,予以保留;

2.文件大小相同再判断文件md5,md5相同,则是重复文件,予以删除。

源码解说

from pathlib import Path
import hashlib


def getmd5(filename):
    # 接收文件路径,返回文件md5值
    with open(filename, 'rb') as f:
        data = f.read()
    file_md5 = hashlib.new("md5", data).hexdigest()
    return file_md5


def main():
    path = r"F:\FileRecv\删除文件测试"
    all_size = {}
    total_file = 0
    total_delete = 0

    # 获取路径内的所有文件名,默认是升序排列,相同文件将会保留日期时间最新的
    all_files = Path(path).glob('*.*')

    # 降序排列,相同文件将会保留文件名最短的(即日期时间最久的)
    all_files = sorted(all_files, reverse=True)

    # 遍历文件路径内的所有文件
    for file in all_files:
        # 获取文件所占字节大小,作为数据字典的键
        size = file.stat().st_size
        # name_and_md5列表用于存储文件绝对路径和md5值,作为数据字典的值
        name_and_md5 = [file, '']

        # 针对重复文件进行处理,生成字典存储相关信息
        # 字典all_size中key是size,value是name_and_md5列表
        # 针对相同size的文件,再调用getmd5函数,获取文件的md5值
        # 文件size不同(不在all_size.keys()中),则自动判断为不同的文件,予以保留
        if size in all_size.keys():
            # 调用getmd5函数,获取文件的md5值
            new_md5 = getmd5(file)
            if all_size[size][1] == '':
                all_size[size][1] = getmd5(all_size[size][0])
            # 判断md5值存在,即文件重复,则删除文件。md5值不存在,则把md5值加入列表中
            if new_md5 in all_size[size]:
                file.unlink()
                total_delete += 1
            else:
                all_size[size].append(new_md5)
        else:
            all_size[size] = name_and_md5
        total_file += 1

    print(f'文件总数:{total_file}')
    print(f'删除个数:{total_delete}')


if __name__ == '__main__':
    main()

效果图:

代码说明:特别感谢瑜亮老师提供的代码!

知识拓展

pathlib和os,os.path常用的函数对应关系

pathlib常用方法介绍:

Path(path).name  # 返回文件名+文件后缀

Path(path).stem  # 返回文件名

Path(path).suffix  # 返回文件后缀

Path(path).suffixes  # 返回文件后缀列表

Path(path).root  # 返回根目录

Path(path).parts  # 返回文件

Path(path).anchor  # 返回根目录

Path(path).parent  # 返回父级目录

Path(path).parents  # 返回所有上级目录的列表

Path.exists()  # 判断 Path 路径是否是一个已存在的文件或文件夹

Path.is_dir()  # 判断 Path 是否是一个文件夹

Path.is_file()  # 判断 Path 是否是一个文件

Path.mkdir()  # 创建文件夹

Path.rmdir()  # 删除文件夹,文件夹必须为空

Path.unlink()  # 删除文件

到此这篇关于详解如何使用Python实现删除重复文件的文章就介绍到这了,更多相关Python删除重复文件内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

详解如何使用Python实现删除重复文件

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

Linux中如何使用dupeGuru删除重复文件

本篇文章为大家展示了Linux中如何使用dupeGuru删除重复文件,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。dupeGuru的安装在Ubuntu上,你可以添加Hardcoded Softwar
2023-06-16

python 实现删除文件或文件夹实例详解

python 实现删除文件或文件夹最近自己学习Python 的知识,自己学习抓取网页的内容知识等,在学习的时候Python 删除文件夹或者文件知识的时候,觉得本篇内容不错,推荐给大家。 实例代码,仔细看注释明细:#-*- coding: U
2022-06-04

Python实现删除重复文件的示例代码

这篇文章主要为大家详细介绍了如何利用Python实现删除重复文件功能,文中的示例代码讲解详细,对我们学习Python有一定的帮助,感兴趣的小伙伴的可以了解一下
2023-02-14

VB.Net如何实现复制、删除文件

这篇文章主要为大家展示了“VB.Net如何实现复制、删除文件”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“VB.Net如何实现复制、删除文件”这篇文章吧。VB.Net语言 复制、删除文件代码:I
2023-06-17

Linux中如何使用FSlint查找和删除重复文件

本篇内容主要讲解“Linux中如何使用FSlint查找和删除重复文件”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Linux中如何使用FSlint查找和删除重复文件”吧!FSlint 能够找出系
2023-06-27

如何用php实现删除文件

这篇文章主要介绍“如何用php实现删除文件”,在日常操作中,相信很多人在如何用php实现删除文件问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”如何用php实现删除文件”的疑惑有所帮助!接下来,请跟着小编一起来
2023-07-05

使用python怎么删除文件夹中的重复图片

这篇文章给大家介绍使用python怎么删除文件夹中的重复图片,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。第一部分:判断两张图片是否相同要查找重复的图片,必然绕不开判断两张图片是否相同。判断两张图片简单呀!图片可以看成
2023-06-15

如何使用Testdisk恢复删除的文件

这篇文章主要讲解了“如何使用Testdisk恢复删除的文件”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“如何使用Testdisk恢复删除的文件”吧!Testdisk是一个强大的免费的跨平台的
2023-06-27

如何用Python寻找重复文件并删除的脚本写法

这期内容当中小编将会给大家带来有关如何用Python寻找重复文件并删除的脚本写法,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。在实际生活中,经常会有文件重复的困扰,即同一个文件可能既在A目录中,又在B目录
2023-06-28

linux中如何使用awk命令删除文本重复行

linux中如何使用awk命令删除文本重复行,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。测试文本如下:# cat 1.txt2.1.10.12.1.10.22.11.0.12
2023-06-12

详解B树删除操作:使用Python实现B树删除操作的详细图解

B树删除操作需要考虑节点所在位置和平衡,并且很有可能会发生下溢的情况。当一个节点包含的子节点数量少于它应该持有的最小数量时,就会发生下溢。图文展示B树删除操作原理在不影响平衡情况下。下溢情况。删除内部节点。Python实现B树删除
详解B树删除操作:使用Python实现B树删除操作的详细图解
2024-01-22

如何使用CSS实现文字删除效果

CSS文字删除效果的实现在网页设计中,我们可能需要一些特殊效果来增加页面的美观度和趣味性。例如,我们可能需要一些文字效果来突出一些重要的信息或强调某些内容。其中之一便是文字删除,即在一些文本中添加删除线来表示它们已不再是有效或相关的内容。本文将介绍如何使用CSS来实现文字删除效果。1. text-decoration: line-through;要实现文字删除效果,我们可以使用
2023-05-14

linux中如何使用awk删掉文件中重复的行

这篇文章将为大家详细讲解有关linux中如何使用awk删掉文件中重复的行,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。TL;DR要保持原来的排列顺序删掉重复行,使用:awk !visited[$0]++
2023-06-16

如何使用批处理实现迅速删除非法文件名

这篇文章将为大家详细讲解有关如何使用批处理实现迅速删除非法文件名,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。例如 .. con nul 等等 两行代码搞定,迅速删除使用非法文件名的文件及文件夹 200
2023-06-09

如何使用vbs实现自动删除超过10天的文件及文件夹

小编给大家分享一下如何使用vbs实现自动删除超过10天的文件及文件夹,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!复制代码 代码如下:option explici
2023-06-08

windows文件删除不了正在使用如何解决

本篇内容介绍了“windows文件删除不了正在使用如何解决”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!解决方法:方法一、 1、在任务栏搜索
2023-07-01

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录