位置：首页-资讯-后端开发

Python实现一键整理百度云盘中重复无用文件

2024-04-02 19:55

短信预约 -IT技能 免费直播动态提醒

获取云盘缓存目录

使用 Everything 找到云盘缓存 db 文件，复制到脚本的目录下。

云盘数据整理

我们发现这个是一个 sqlite3 的文件，用 Navicat 打开先看看。

我们所有云盘的文件以及对应的路径保存在 cache_file 中，直接导出可能会有些问题，所以我们用 pandas 来处理数据就可以了。

云盘数据导出

我的云盘导出来了 40MB 的目录数据，看着都头疼。

数据整理

把云盘的目录数据导出到 excel，后去该怎么处理就怎么处理吧。代码非常少，如果喜欢用 python 处理就用 pandas 处理，如果感觉有困难直接在 excel 中处理就可以了。

import sqlite3
import pandas as pd

file_dict = {}  
con = sqlite3.connect('BaiduYunCacheFileV0.db')
cursor = con.cursor()  
cursor.execute("select * from cache_file") 
values = cursor.fetchall()

df = pd.DataFrame(values,columns=["id","fid","parent_path","server_filename","file_size","md5","isdir","category","server_mtime","local_mtime","reserved1","reserved2","reserved3","reserved4","reserved5","reserved6","reserved7","reserved8","reserved9"])
df.to_excel("data.xlsx")

重复文件提取

这个由于百度云盘没有对应的API接口可以使用爬虫的方式进行网页的操作对重复数据进行删除，但是容易误操作，所以还是手动把要处理的数据整理出来然后进行操作把。

通过文件名称判断重复，有了结果后续自己处理就好了。

df["server_filename"].duplicated()

0         False
1         False
2         False
3         False
4         False
          ...  
379563    False
379564    False
379565     True
379566     True
379567    False
Name: server_filename, Length: 379568, dtype: bool


df[df["server_filename"].duplicated()]["server_filename"]
188             WE_rk_nos06.txt
252                   django.po
254                   django.po
255                   django.po
256                   django.po
                  ...          
378517                video.mp4
378518            top_level.txt
378543    Blog_articleinfo.xlsx
379565                     apps
379566              职业培训规划.mmap
Name: server_filename, Length: 152409, dtype: object

到此这篇关于Python实现一键整理百度云盘中重复无用文件的文章就介绍到这了,更多相关Python整理重复文件内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

阅读原文内容投诉

Python实现一键整理百度云盘中重复无用文件

下载Word文档到电脑，方便收藏和打印～

下载Word文档

Python实现一键整理百度云盘中重复无用文件

目录

获取云盘缓存目录

云盘数据整理

云盘数据导出

数据整理

重复文件提取

Python实现一键整理百度云盘中重复无用文件

相关文章

猜你喜欢

Python实现一键整理百度云盘中重复无用文件

热门标签

编程热搜

Python 学习之路 - Python

chatgpt的中文全称是什么

C/C++中extern函数使用详解

C/C++可变参数的使用

css样式文件该放在哪里

php中数组下标必须是连续的吗

Python 3 教程

Python pip包管理

ubuntu如何重新编译内核

改善Java代码之慎用java动态编译

编程资源站

2021年下半年软考高级信息系统项目管理师高频考点精选资料

2021下半年软考高级信息系统技术知识点记忆口诀精选资料

2021下半年软考《信息系统项目管理师》考试真题及答案精选资料

2021下半年软考高级考试备考攻略精选资料

2021年软考高级《信息系统项目管理师》巩固练习题汇总精选资料

2021下半年软考高级信息系统项目管理师30个易考知识点汇总精选资料

2021下半年软考高级知识点这样记，还担心记不住吗精选资料

2021年下半年软考高级考试重点汇总精选资料

2021下半年软考高级信息系统项目管理师计算公式汇总精选资料

2021年下半年软考高级《信息系统项目管理师》模拟试题精选资料

信息系统项目管理师选择题每日一练（2024）历年试题

2023年下半年信息系统项目管理师综合知识真题演练历年试题

目录

Python实现一键整理百度云盘中重复无用文件

目录

获取云盘缓存目录

云盘数据整理

云盘数据导出

数据整理

重复文件提取

Python实现一键整理百度云盘中重复无用文件

相关文章

猜你喜欢

Python实现一键整理百度云盘中重复无用文件

热门标签

编程热搜

编程资源站

目录

感谢您的提交，我们服务专员将在30分钟内给您回复