怎么用Python清理收藏夹里已失效的网站

2023-06-02 03:47

短信预约 -IT技能 免费直播动态提醒

这篇文章主要介绍“怎么用Python清理收藏夹里已失效的网站”，在日常操作中，相信很多人在怎么用Python清理收藏夹里已失效的网站问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”怎么用Python清理收藏夹里已失效的网站”的疑惑有所帮助！接下来，请跟着小编一起来学习吧！

最近打开好多以前收藏的网站，发现好多都已经失效了，好多以前想看还没来得及看的内容，也找不见了。。。

失效的书签们

我们日常浏览网站的时候，时不时会遇到些新奇的东西，于是我们就默默的点了个收藏或者加书签。然而当我们面对成百上千的书签和收藏夹的时候，总会头疼不已……

怎么用Python清理收藏夹里已失效的网站

尤其是昨天还在更新的程序设计博客，今天就挂了永不更新。或者是昨天看的起劲的电影网站，今天直接404。失效页面这么多，每次我打开才知道失效了，并且需要手动删除，这能是一个程序员干的事情吗？

可是无论是Google浏览器还是国内浏览器，最多也就提供一个对于收藏夹的备份服务，那只能Python走起了。

怎么用Python清理收藏夹里已失效的网站

Python支持的收藏夹文件格式

对于收藏夹提供的支持很少，主要还是因为收藏夹藏在浏览器里面，我们只能手动导出htm文件进行管理

怎么用Python清理收藏夹里已失效的网站

内容比较简单，对前端没什么了解的我，也可以很明显看出其中的树形结构和内在逻辑。

固定格式网址固定格式页面名固定格式

很简单的想到了正则匹配，其中有两个子串。提取出来再挨个访问，看看哪个失效了，就删除，就能获得清理后的收藏夹了。

读取收藏夹文件

path = "C:\\Users\\XU\\Desktop"fname = "bookmarks.html"os.chdir(path)bookmarks_f = open(fname, "r+" ,encoding='UTF-8')booklists = bookmarks_f.readlines()bookmarks_f.close()

因为对于前端的不熟悉，这个导出的收藏夹可以抽象的分成

结构代码
保存网页书签的关键代码

其中结构代码我们不能动，要原封不动的保留，而保存网页书签的关键代码，我们要提取内容并且进行判断保留和删除。

所以这里采用readlines函数，每行读取，单独判断。

正则匹配

pattern = r'HREF="(.*?)" .*?>(.*?)</A>'while len(booklists)>0: bookmark = booklists.pop(0) detail = re.search(pattern, bookmark)

如果是关键代码：提取出的子串在 detail.group(1) 和 detail.group(2) 里面

而如果是结构代码：detail == None

访问页面

import requestsr = requests.get(detail.group(1),timeout=500)

编代码尝试之后发现会有这四种情况

r.status_code == requests.codes.ok
r.status_code==404
r.status_code!=404 && 无法访问（可能是屏蔽爬虫，建议保留）
requests.exceptions.ConnectionError

类似知乎、简书基本都反爬了，所以简单的get还不能有效访问，细节不值得大费周章，直接保留就好。而error，直接用try抛出异常就好，不然程序会停止运行。

添加逻辑后：（代码可左右拖动）

while len(booklists)>0: bookmark = booklists.pop(0) detail = re.search(pattern, bookmark) if detail: #print(detail.group(1) +"----"+ detail.group(2)) try: #访问 r = requests.get(detail.group(1),timeout=500) #如果可则添加 if r.status_code == requests.codes.ok: new_lists.append(bookmark) print( "ok------ 保留："+ detail.group(1)+" "+ detail.group(2)) else: if(r.status_code==404): print("不可访问 删除："+ detail.group(1)+" "+ detail.group(2) +'错误码 '+str(r.status_code)) else: print("其他原因 保留："+ detail.group(1)+" "+ detail.group(2) +'错误码 '+str(r.status_code)) new_lists.append(bookmark) except: print( "不可访问 删除："+ detail.group(1)+" "+ detail.group(2)) #new_lists.append(bookmark) else:#没匹配到是结构语句 new_lists.append(bookmark)

程序执行情况

怎么用Python清理收藏夹里已失效的网站

导出htm

bookmarks_f = open('new_'+fname, "w+" ,encoding='UTF-8')bookmarks_f.writelines(new_lists)bookmarks_f.close()

导入浏览器

怎么用Python清理收藏夹里已失效的网站

实际应用于我的浏览器

怎么用Python清理收藏夹里已失效的网站

到此，关于“怎么用Python清理收藏夹里已失效的网站”的学习就结束了，希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习，快去试试吧！若想继续学习更多相关知识，请继续关注编程网网站，小编会继续努力为大家带来更多实用的文章！

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

阅读原文内容投诉

怎么用Python清理收藏夹里已失效的网站

下载Word文档到电脑，方便收藏和打印～

下载Word文档

怎么用Python清理收藏夹里已失效的网站

失效的书签们

怎么用Python清理收藏夹里已失效的网站

相关文章

猜你喜欢

怎么用Python清理收藏夹里已失效的网站

Python如何清理收藏夹里已失效的网站

SAP GUI里的收藏夹事务码管理工具怎么用

热门标签

编程热搜

Python 学习之路 - Python

chatgpt的中文全称是什么

C/C++中extern函数使用详解

C/C++可变参数的使用

css样式文件该放在哪里

php中数组下标必须是连续的吗

Python 3 教程

Python pip包管理

ubuntu如何重新编译内核

改善Java代码之慎用java动态编译

编程资源站

2021年下半年软考高级信息系统项目管理师高频考点精选资料

2021下半年软考高级信息系统技术知识点记忆口诀精选资料

2021下半年软考《信息系统项目管理师》考试真题及答案精选资料

2021下半年软考高级考试备考攻略精选资料

2021年软考高级《信息系统项目管理师》巩固练习题汇总精选资料

2021下半年软考高级信息系统项目管理师30个易考知识点汇总精选资料

2021下半年软考高级知识点这样记，还担心记不住吗精选资料

2021年下半年软考高级考试重点汇总精选资料

2021下半年软考高级信息系统项目管理师计算公式汇总精选资料

2021年下半年软考高级《信息系统项目管理师》模拟试题精选资料

信息系统项目管理师选择题每日一练（2024）历年试题

2023年下半年信息系统项目管理师综合知识真题演练历年试题

目录

怎么用Python清理收藏夹里已失效的网站

失效的书签们

怎么用Python清理收藏夹里已失效的网站

相关文章

猜你喜欢

怎么用Python清理收藏夹里已失效的网站

Python如何清理收藏夹里已失效的网站

SAP GUI里的收藏夹事务码管理工具怎么用

热门标签

编程热搜

编程资源站

目录

感谢您的提交，我们服务专员将在30分钟内给您回复