我的编程空间,编程开发者的网络收藏夹
学习永远不晚

【Python】备份itpub博客

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

【Python】备份itpub博客

itpub改版了,新版备份博客代码如下,思路和上一版备份思路一样

# -*- coding: utf-8 -*-import re import urllib2import requests,refrom bs4 import BeautifulSoup as bsp for page in range(1,30): ###这儿就是输入你希望下载的页数,输入你的总页数吧url='http://blog.itpub.net/29096438/list/%d/'% page        ####循环不同的页text = urllib2.urlopen(url).read()pattern = r'<a target=_blank href="/29096438/viewspace-[0-9]*/" class="w750"><p class="title">.*</p></a>' regex = re.compile(pattern) urlList = re.findall(regex,text) ####通过正则表达式找到所有文章的href,此时的href是带上标题的for t in urlList: i= t.split('=')[2].replace('class','').replace('"','').strip(' ') newi=re.sub('/29096438','http://blog.itpub.net/29096438',i).decode('utf-8') fname2=t.split('=')[-1].split('>')[1].split('<')[0]+'.html'.replace(' ','') # print newi,fname2 try: r=requests.get(newi,headers={'User-Agent':'Mozilla/5.0 (Linux; U; Android 2.3.6; en-us; Nexus S Build/GRK39F) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1'}) soup=bsp(r.content,"html.parser") cont=soup.find('div',{'class':'preview-main'}) f=open(fname2,'w') f.write(str(cont)) f.close() print fname2,r,'备份成功'  except: pass ###上面的user-agent随机从下面取一个,我懒的写随机choice了agents = [    'Mozilla/5.0 (Linux; U; Android 2.3.6; en-us; Nexus S Build/GRK39F) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1',    'Avant Browser/1.2.789rel1 (http://www.avantbrowser.com)',    'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/532.5 (KHTML, like Gecko) Chrome/4.0.249.0 Safari/532.5',    'Mozilla/5.0 (Windows; U; Windows NT 5.2; en-US) AppleWebKit/532.9 (KHTML, like Gecko) Chrome/5.0.310.0 Safari/532.9',    'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) AppleWebKit/534.7 (KHTML, like Gecko) Chrome/7.0.514.0 Safari/534.7',    'Mozilla/5.0 (Windows; U; Windows NT 6.0; en-US) AppleWebKit/534.14 (KHTML, like Gecko) Chrome/9.0.601.0 Safari/534.14',    'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.14 (KHTML, like Gecko) Chrome/10.0.601.0 Safari/534.14',    'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.20 (KHTML, like Gecko) Chrome/11.0.672.2 Safari/534.20',    'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.27 (KHTML, like Gecko) Chrome/12.0.712.0 Safari/534.27',    'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/13.0.782.24 Safari/535.1',    'Mozilla/5.0 (Windows NT 6.0) AppleWebKit/535.2 (KHTML, like Gecko) Chrome/15.0.874.120 Safari/535.2',    'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.7 (KHTML, like Gecko) Chrome/16.0.912.36 Safari/535.7',    'Mozilla/5.0 (Windows; U; Windows NT 6.0 x64; en-US; rv:1.9pre) Gecko/2008072421 Minefield/3.0.2pre',    'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) Gecko/2009042316 Firefox/3.0.10',    'Mozilla/5.0 (Windows; U; Windows NT 6.0; en-GB; rv:1.9.0.11) Gecko/2009060215 Firefox/3.0.11 (.NET CLR 3.5.30729)',    'Mozilla/5.0 (Windows; U; Windows NT 6.0; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6 GTB5',    'Mozilla/5.0 (Windows; U; Windows NT 5.1; tr; rv:1.9.2.8) Gecko/20100722 Firefox/3.6.8 ( .NET CLR 3.5.30729; .NET4.0E)',    'Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1',    'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:2.0.1) Gecko/20100101 Firefox/4.0.1',    'Mozilla/5.0 (Windows NT 5.1; rv:5.0) Gecko/20100101 Firefox/5.0',    'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0a2) Gecko/20110622 Firefox/6.0a2',    'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:7.0.1) Gecko/20100101 Firefox/7.0.1',    'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:2.0b4pre) Gecko/20100815 Minefield/4.0b4pre',    'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT 5.0 )',    'Mozilla/4.0 (compatible; MSIE 5.5; Windows 98; Win 9x 4.90)',    'Mozilla/5.0 (Windows; U; Windows XP) Gecko MultiZilla/1.6.1.0a',    'Mozilla/2.02E (Win95; U)',    'Mozilla/3.01Gold (Win95; I)',    'Mozilla/4.8 [en] (Windows NT 5.1; U)',    'Mozilla/5.0 (Windows; U; Win98; en-US; rv:1.4) Gecko Netscape/7.1 (ax)',    'Mozilla/5.0 (hp-tablet; Linux; hpwOS/3.0.2; U; de-DE) AppleWebKit/534.6 (KHTML, like Gecko) wOSBrowser/234.40.1 Safari/534.6 TouchPad/1.0',]

备份如下

【Python】备份itpub博客

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

【Python】备份itpub博客

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

【Python】备份itpub博客

itpub改版了,新版备份博客代码如下,思路和上一版备份思路一样# -*- coding: utf-8 -*-import re import urllib2import requests,refrom bs4 import Beautif
2023-06-04

Python实现新浪博客备份的方法

本文实例讲述了Python实现新浪博客备份的方法。分享给大家供大家参考,具体如下: Python2.7.2版本实现,推荐在IDE中运行。# -*- coding:UTF-8 -*- # ''' Created on 2011-12-18 @
2022-06-04

多备份:一键自动备份你的WordPress博客

WordPress 现有的备份方法和存在的问题 对于 WordPress 博客来说,有很多备份的方法,数据库可以直接通过 phpmysql 导出,或者通过 WP Datwww.cppcns.comabase Backup 定时备份,然后发送
2022-06-12

如何实现网站备份wordpress博客备份及恢复数据详细

这篇文章主要介绍“如何实现网站备份wordpress博客备份及恢复数据详细”,在日常操作中,相信很多人在如何实现网站备份wordpress博客备份及恢复数据详细问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”如
2023-06-10

python+django博客simbl

概述本博客系统基于Django-1.7.7开发而成,通过nginx+uwsgi运行于locvps,Python版本为 2.7.6。功能    1.文章、分类和页面的增删改查;    2.文章按年、月归档;    3.集成simditor富文
2023-01-31

将博客搬至CSDN —— python

差不多两年前在oschina写的博客,现在搬到CSDN,原地址:https://my.oschina.net/u/2309100/blog/818777摘要:     python的处理速率并不太理想,在一些需要高速数据运算的应用场景时,p
2023-01-31

Python爬虫抓取csdn博客

昨天晚上为了下载保存某位csdn大牛的全部博文,写了一个爬虫来自动抓取文章并保存到txt文本,当然也可以 保存到html网页中。这样就可以不用Ctrl+C 和Ctrl+V了,非常方便,抓取别的网站也是大同小异。为了解析抓取的网页,用到了第三
2023-01-31

技术博客2014年3月份头条记录

==============3.30-3.31头条回顾=============Mongodb复制集及Sharding的实现[搭建高可用Mongodb集群] [MongoDB集群搭建及Sharding的实现][Microsoft Azure
2023-01-31

Python搭建博客网站小结

引言文件结构关键技术http工作流程ORM框架Day3-Day4web框架Day5作业成果博客首页写博客文章管理文章详情总结参考断断续续终于过了一遍廖雪峰的Python教程,于此梳理教程实战作业:搭建一个Blog网站。 由于欠缺前端知识,有
2023-01-31

Python Flask开源博客系统Bl

本博文在51CTO技术博客首发。        开源不易,Python良心之作,真心送给广大朋友,恳请给予支持,不胜感激!                大家可以从下面的地址中去体验Blog_mini的功能,我把副本部署在了腾讯云上供大家使
2023-01-31

Python 增加博客园阅读量

最近偶然到博客园看了一下,距离上次的博客已经过去很多天了,阅读量却少得可怜,对于博客园小白来说感觉不是很友好(主要是心理不平衡),而且有些博客被其他网站不带出处的转载了,它的阅读量却很多。于是灵光一闪,决定写个程序增加一下阅读量。(仅用于学
2023-01-30

怎么用python搭建个人博客

要用Python搭建个人博客,可以使用以下步骤:1. 选择Web框架:Python有许多流行的Web框架可供选择,例如Django和Flask。这些框架都提供了快速构建Web应用程序的工具和功能。2. 安装所选框架:根据选择的框架,按照官方
2023-08-11

Python Flask开源个人博客代码

没有写html模板继承,有时间再补吧,或者感兴趣的自己抽取一下博客演示站点:http://www.7z1.xyz/如出现未备案,请直接访问:http://119.23.230.6/后台管理地址:/admin/login
2023-01-31

利用Python批量保存51CTO博客

一、背景最近在整理博客,近在51CTO官网存在文章,想将之前写的全部保存到本地,发现用markdown写的可以导出,富文本的则不行,就想利用Python批量保存自己的博客到本地。二、代码git地址#!/bin/env python# -*-
2023-01-31

nodejs个人博客开发第一步 准备工作

前言 nodejs是运行在服务端的js,基于google的v8引擎。个人博客系统包含对数据库的增删查改,功能齐备,并且业务逻辑比较简单,是很多后台程序员为了检测学习成果,最先拿来练手的小网站程序。我也是在去年年末接触的nodejs,接下来随
2022-06-04

免备案博客空间租用有哪些优势

免备案博客空间租用的优势包括:1、无需备案免备案博客空间租用无需备案,可以直接使用,无需等待备案审核,节省了时间和精力。2、价格实惠免备案博客空间租用通常价格比较实惠,适合个人和小型团队使用。3、稳定性高免备案博客空间租用通常使用的是稳定的
2023-03-19

利用Python Django实现简单博客系统

第一节 - 基础 1. 简单的导览图,学会不迷路对 Django 的评价:借用李清照的《鹧鸪天 桂花》来表达, 暗淡轻黄体性柔。情疏迹远只香留。何须浅碧深红色,自是花中第一流。 梅定妒,菊应羞。画阑开处冠中秋。骚人可煞无情思,何事当年不见收
2022-06-02

python 生成18年写过的博客词云

文章链接:https://mp.weixin.qq.com/s/NmJjTEADV6zKdT--2DXq9Q回看18年,最有成就的就是有了自己的 博客网站,坚持记录,写文章,累计写了36篇了,从一开始的难以下手,到现在成为一种习惯,虽然每次
2023-01-30

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录