我的编程空间,编程开发者的网络收藏夹
学习永远不晚

用python 写了一个wordpres

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

用python 写了一个wordpres

在学习python的过程中,经过不断的尝试及努力,终于完成了第一个像样的python程序,虽然还有很多需要优化的地方,但是目前基本上实现了我所要求的功能,先贴一下程序代码:
 

 

 

具体代码如下
#! /usr/bin/python
import os,urllib2,re,time,MySQLdb,sys
reTitle                   = re.compile('<font[^>]*>(.*?)<\/font><font[^>]*')
reNeiron                  = re.compile('[1-9|A-Z|a-z].*')
retiqu                    = re.compile('^(?!MARGINWIDTH|BR).*.[^>|}]$')
rezhong                   = re.compile('^[^[].*')
shijian=1190944000
Str1="\\n---------------- BLOG OF YAO"
bianhao=2859
for i in range(1,1500):
        Str2=""
        ltime=time.localtime(shijian)
        timeStr=time.strftime("%Y%m%d",ltime)
        url="http://www.jokeswarehouse.com/cgi-bin/viewjoke2.cgi?id=%s" %timeStr
        print url
        a=urllib2.urlopen(url).read()
        Title=reTitle.findall(a)
        print "=========================================================================================================="
        for titles in map(None,Title):
                titles=MySQLdb.escape_string(titles)
                print titles
        Neiron=re.findall(reNeiron,a)
        for i in map(None,Neiron):
                x=re.findall(retiqu,i)
                for str in x:
                        str=MySQLdb.escape_string(str)
                        Str2 += str+"\\n"
        shijian += 86400
        bianhao += 1
        try:
                conn=MySQLdb.connect("XXXX.XXXX.XXXX.XXXX","user","passwd","dbname",charset="utf8", init_command="set names utf8")
        except MySQLdb.OperationalError,message:
                print "like error"
        cursor=conn.cursor()
        sql="INSERT INTO wp_posts (post_author,post_date,post_date_gmt,post_content,post_content_filtered,post_title,post_excerpt,post_status,post_type,comment_status,ping_status,post_password,post_name,to_ping,pinged,post_modified,post_modified_gmt,post_parent,menu_order,guid) VALUES (\'1\',\'2011-06-01 22:12:25\',\'2011-05-09 04:12:25\',\'\',\'\',\'Auto Draft\',\'\',\'inherit\',\'revision\',\'open\',\'open\',\'\',\'100-revision\',\'\',\'\',\'2011-06-01 22:12:25\',\'2011-05-09 04:12:25\',\'%s\',\'0\',\'\')"  %bianhao
        sql2="UPDATE wp_posts SET post_author = 1, post_date = \'2011-06-01 22:12:25\', post_date_gmt = \'2011-06-01 22:12:25\', post_content =\'%s\', post_content_filtered = \'\', post_title = \'%s\', post_excerpt = \'\', post_status = \'publish\', post_type = \'post\', comment_status = \'open\', ping_status = \'open\', post_password = \'\', post_name = \'%s\', to_ping = \'\', pinged = \'\', post_modified = \'2011-06-01 22:12:25\', post_modified_gmt = \'2011-05-09 04:12:30\', post_parent = 0, menu_order = 0, guid = \'http://www.moncleronlineshops.com/?p=%s\' WHERE ID = %s" %(Str2,titles,titles,bianhao,bianhao)
        cursor.execute(sql)
        cursor.execute(sql2)
        cursor.close()
        conn.close()
        sys.exit()
 

 

下面,我们来给代码加些注释,让读者能看的更明白一些,如下:

具体代码如下
#! /usr/bin/python
import os,urllib2,re,time,MySQLdb,sys  #加载本程序需要调用的相模块
reTitle                   = re.compile('<font[^>]*>(.*?)<\/font> <font[^>]*') # 定义一下取文章标题的正则
reNeiron                  = re.compile('[1-9|A-Z|a-z].*') 
#定义一个取提取文章内容的正则(注:这里提取出来的不是很精细,需要在下面的正则里,再进行提取,这里只是取一个大概)
retiqu                    = re.compile('^(?!MARGINWIDTH|BR).*.[^>|}]$')
#这里定义一个正则,将上面reNeiron提取出来的字符,再进行细化。

shijian=1190944000   #这里字义了一个时间戳,
Str1="\\n---------------- BLOG OF YAO"  #这个没用,开始是准备加到文章里的,后来没加进去。
bianhao=2859     #这里是wordpress 的文章编号,直接查看wp-posts表的id 字段的最后一个数字。

for i in range(1,1500): #循环1500遍,也就是采集1500篇文章。
        Str2=""  #先赋值给Str2 空值
        ltime=time.localtime(shijian)   
        timeStr=time.strftime("%Y%m%d",ltime)  #这两句将上面的时间戳改为时间,样式为19700101这样的格式
        url="http://www.jokeswarehouse.com/cgi-bin/viewjoke2.cgi?id=%s" %timeStr #定义要采集的网站,将转化后的时间放在这个url的最后。
        a=urllib2.urlopen(url).read() #将这个网页的源代码读出来,赋值给a;
        Title=reTitle.findall(a)
#使用 reTitle这个正则提取出标题
        print "=========================================================================================================="
        for titles in map(None,Title): #上面提取出来的标题前后都有一个 [] 
所以我们要写个for循环把前后的[]去掉,并转义成能直接插入mysql库的格式。
                titles=MySQLdb.escape_string(titles)
        Neiron=re.findall(reNeiron,a)  #先用reNeiron,取个大概的内容模型出来。这些都是以逗号分隔的数组。
        for i in map(None,Neiron): # 我们来循环读出Neiron这个数组里的每个值。
                x=re.findall(retiqu,i)#并用 retiqu这个正则提出精细出的内容。
                for str in x:
                        str=MySQLdb.escape_string(str)
                        Str2 += str+"\\n"
#利用这个循环,我们把内容加到一起,并赋值给Str2这个变量,这个 Str2这个变量就是所有的文章内容。
        shijian += 86400 #每循环一次,就把shijian这个变量加上一天。
        bianhao += 1     #每循环一次,就把bianhao这个变量加上一
        try:
#下面是用mysqldb连接数据库,并尝试连接是否成功。             conn=MySQLdb.connect("XXXX.XXXX.XXXX.XXXX","user","passwd","dbname",charset="utf8", init_command="set names utf8")
        except MySQLdb.OperationalError,message:
                print "like error"
        cursor=conn.cursor()
#下面是插入wordpress数据库的两条语句,我是从mysqlbinlog里面导出来的,测试是可以插入数据库,并能正常把内容显示在网页的。变量都写在这两条语句里。
        sql="INSERT INTO wp_posts (post_author,post_date,post_date_gmt,post_content,post_content_filtered,post_title,post_excerpt,post_status,post_type,comment_status,ping_status,post_password,post_name,to_ping,pinged,post_modified,post_modified_gmt,post_parent,menu_order,guid) VALUES (\'1\',\'2011-06-01 22:12:25\',\'2011-05-09 04:12:25\',\'\',\'\',\'Auto Draft\',\'\',\'inherit\',\'revision\',\'open\',\'open\',\'\',\'100-revision\',\'\',\'\',\'2011-06-01 22:12:25\',\'2011-05-09 04:12:25\',\'%s\',\'0\',\'\')"  %bianhao
        sql2="UPDATE wp_posts SET post_author = 1, post_date = \'2011-06-01 22:12:25\', post_date_gmt = \'2011-06-01 22:12:25\', post_content =\'%s\', post_content_filtered = \'\', post_title = \'%s\', post_excerpt = \'\', post_status = \'publish\', post_type = \'post\', comment_status = \'open\', ping_status = \'open\', post_password = \'\', post_name = \'%s\', to_ping = \'\', pinged = \'\', post_modified = \'2011-06-01 22:12:25\', post_modified_gmt = \'2011-05-09 04:12:30\', post_parent = 0, menu_order = 0, guid = \'http://www.moncleronlineshops.com/?p=%s\' WHERE ID = %s" %(Str2,titles,titles,bianhao,bianhao)
        cursor.execute(sql)
        cursor.execute(sql2)  #连接数据库并执行这两条语句。
        cursor.close()
        conn.close()   #关闭数据库。
        sys.exit()  

上面是程序的代码,采集的是:www.jokeswarehouse.com 的一个笑话网站。通过 python 的 re 模块,也就是正则匹配模块,运行相应的正则表达式,进行过滤出我们所需要的标题和文章内容,再运用  python 的mysqldb 模块,进行连接数据库,利用相应的插入语句,进行插入数据库。
 

 

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

用python 写了一个wordpres

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

用python 写了一个wordpres

在学习python的过程中,经过不断的尝试及努力,终于完成了第一个像样的python程序,虽然还有很多需要优化的地方,但是目前基本上实现了我所要求的功能,先贴一下程序代码:   具体代码如下#! /usr/bin/pythonimport
2023-01-31

用python写一个restful AP

# -*- coding: utf-8 -*-# 作者: 煮酒品茶""" package.module ~~~~~~~~~~~~~~ python实现的图书的一个restful api. 参考restful设计指南
2023-01-31

怎样用Python写了一个智能机器人来聊天

这篇文章将为大家详细讲解有关怎样用Python写了一个智能机器人来聊天,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。人工智能已是趋势,智能酒店,智能网吧,无人驾驶等等都已经实现,过不了多久,
2023-06-16

用Python写一个小爬虫吧!

学习了一段时间的web前端,感觉有点看不清前进的方向,于是就写了一个小爬虫,爬了51job上前端相关的岗位,看看招聘方对技术方面的需求,再有针对性的学习。我在此之前接触过Python,也写过一些小脚本,于是决定用Python来完成这个小项目
2023-01-30

怎么用python写一个福字

这篇文章主要介绍“怎么用python写一个福字”,在日常操作中,相信很多人在怎么用python写一个福字问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”怎么用python写一个福字”的疑惑有所帮助!接下来,请跟
2023-06-28

怎么用Python编写一个拼写纠错器

这篇文章主要介绍“怎么用Python编写一个拼写纠错器”,在日常操作中,相信很多人在怎么用Python编写一个拼写纠错器问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”怎么用Python编写一个拼写纠错器”的疑
2023-06-04

python写一个通讯录

闲着没事,用python写一个模拟通讯录,要求要实现常用的通讯录的功能,基本流程如下                         ​  接下来就按照这个流程实现各个模块的功能  1. 定义一个类,并初始化1 import json2 i
2023-01-31

python利用文件读写编写一个博客

本文实例为大家分享了python利用文件读写编写一个博客的具体代码,供大家参考,具体内容如下 代码展示import random import json import time import osdef zhuce():print("***
2022-06-02

如何用Python写一个USB病毒

这篇文章给大家介绍如何用Python写一个USB病毒,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。大家好,我又回来了。昨天在上厕所的时候突发奇想,当你把usb插进去的时候,能不能自动执行usb上的程序。查了一下,发现只
2023-06-16

用Python写一个简单公众号

前言:虽然简单,但是稍稍还是有点可取的地方的,终于可以有一个可以作为项目放在自己的github上了T_T,一个好项目一定是可拔插好扩展的,离好项目至少60%吧,以后再进一步完善了。   说实话,有一个微信公众号还是蛮方便的,可以将一些自己常
2023-01-31

使用python怎么写一个txt文件

本篇文章为大家展示了使用python怎么写一个txt文件,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。python写txt文件的方法:python中有一个内置函数open(),该函数用于打开一个文件
2023-06-14

如何用Python写一个NoSQL数据库

这篇文章主要介绍“如何用Python写一个NoSQL数据库”,在日常操作中,相信很多人在如何用Python写一个NoSQL数据库问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”如何用Python写一个NoSQL
2023-06-15

如何使用纯Python写一个网页

这篇文章主要介绍了如何使用纯Python写一个网页,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。在Github上逛的时候,找到一个非常酷的神器,名字叫remi ,目前收获了2
2023-06-16

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录