我的编程空间,编程开发者的网络收藏夹
学习永远不晚

Python爬虫入门教程 52-100

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

Python爬虫入门教程 52-100

写在前面

关于获取文章自动发送到邮箱,这类需求其实可以写好几个网站,弄完博客园,弄CSDN,弄掘金,弄其他的,网站多的是呢~哈哈

先从博客园开始,基本需求,获取python板块下面的新文章,间隔60分钟发送一次,时间太短估摸着没有多少新博客产出~

抓取的页面就是这个

https://www.cnblogs.com/cate/python

需求整理

  1. 获取指定页面的所有文章,记录文章相关信息,并且记录最后一篇文章的时间
  2. 将文章发送到指定邮箱,更新最后一篇文章的时间

实际编码环节

查看一下需要导入的模块

模块清单

import requests
import time
import re
import smtplib
from email.mime.text import MIMEText
from email.utils import formataddr
from email.header import Header
from email.mime.application import MIMEApplication
from email.mime.multipart import MIMEMultipart

初始化基本数据

    # 初始化数据
    def __init__(self):
        self.start_url = "https://www.cnblogs.com/cate/python"
        self.headers = {
            "user-agent": "Mozilla/..... Safari/537.36",
            "referer": "https://www.cnblogs.com/cate/python/"
        }
        self.pattern = r'<div class="post_item_body">[\s\S.]*?<h3><a class="titlelnk" href="(.*?)" target="_blank">(.*?)</a></h3>[\s\S.]*?<div class="post_item_foot">[\s\S.]*?<a href=".*?" class="lightblue">(.*?)</a>([\s\S.]*?)<span class="article_comment">'
        self.last_blog_time = 0
        self.need_send_articles = []

参数说明

  • self.start_url 数据爬取地址
  • self.headers 头文件
  • self.pattern 正则表达式,用来匹配我们需要的数据内容的,你可以使用BS4,LXML,PyQuery等内容实现
  • self.last_blog_time 最后一篇博客的更新时间
  • self.need_send_articles 需要发送的博客地址

解析博客网页内容

涉及代码较多,我将关键点编写相应的注释

    # 解析网页内容
    def get_articles(self):
        try:
            # 正常的数据获取
            res = requests.get(self.start_url,headers=self.headers,timeout=3)
        except Exception as e:
            print("error %s"% e)
            time.sleep(3)
            return self.get_articles()  # 重新发起请求

        html = res.text
        # 这个地方的正则表达式是考验你正则功底的地方了
        all = re.findall(self.pattern,html)
        # 判断,如果没有新文章
        last_time = self.change_time(all[0][3].strip().replace("发布于 ", ""))

        if last_time <= self.last_blog_time:
            print("没有新文章更新")
            return

        for item in all:
            public_time = item[3]
            if public_time:
                # 格式化时间
                public_time = self.change_time(public_time.strip().replace("发布于 ",""))

                if(public_time > self.last_blog_time):
                    self.need_send_articles.append({
                        "url":item[0],
                        "title":item[1],
                        "author":item[2],
                        "time":public_time
                    })

        # 文章获取完毕,更新时间
        self.last_blog_time = last_time
        ##### 测试输出
        print(self.need_send_articles)
        print("现在文章的最后时间为",self.last_blog_time)
        ##### 测试输出

时间字符串转换成时间戳

采用时间戳可以直接比较大小,非常方便

   def change_time(self,need_change_time):
        '''
        # 时间的转换
        :param need_change_time:
        :return:返回时间戳
        '''
        time_array = time.strptime(need_change_time, "%Y-%m-%d %H:%M")
        time_stamp = int(time.mktime(time_array))
        return time_stamp

邮件发送环节

本篇博客采用的是QQ邮箱发送
关于QQ邮箱发送的一些参考文章,我给大家列一下,方便你查阅

参考文章
# https://blog.csdn.net/qiye005/article/details/80789666
# https://blog.csdn.net/Momorrine/article/details/79881251
# https://www.cnblogs.com/lovealways/p/6701662.html
# https://www.cnblogs.com/yufeihlf/p/5726619.html

因为我采用的是QQ邮箱,所以有的地方设定起来比较麻烦,发短信还花了2毛钱,建议你采用其它的邮箱,设置是一样的哦~~

发送邮件send_email函数

你看一下上面的文章之后,就可以对邮件发送进行相应的编写了,非常简单

QQ邮箱是SSL认证的邮箱系统,因此用QQ邮箱发送邮件,需要创建一个SMTP_SSL对象,而不是SMTP对象

    # 发送邮件
    def send_email(self,articles):
        smtp = smtplib.SMTP_SSL()  # 这个地方注意
        smtp.connect("smtp.qq.com",465)
        smtp.login("860866679@qq.com", "授权码")


        sender = '860866679@qq.com'
        receivers = ['找个自己的其他邮箱@163.com']  # 接收邮件,可设置为你的QQ邮箱或者其他邮箱

        # 完善发件人收件人,主题信息
        message = MIMEMultipart()
        message['From'] = formataddr(["博客采集器", sender])
        message['To'] = formataddr(["hi,baby", ''.join(receivers)])
        subject = '你有新采集到的文章清单'
        message['Subject'] = Header(subject, 'utf-8')
        # 正文部分
        html = ""
        for item in articles:
            html+=("<p><a href='{url}'>{title}</a>--文章作者{author}--发布时间{time}</p>".format(title=item["title"],url=item["url"],author=item["author"],time=item["time"]))

        textmessage = MIMEText('<p>新采集到的文章清单</p>' +html,
                               'html', 'utf-8')
        message.attach(textmessage)

        # 发送邮件操作
        smtp.sendmail(sender, receivers, message.as_string())
        smtp.quit()

邮箱收到邮件

当收到邮件的那一刻,你就可以感受到happy了~

python3爬虫入门教程

部署到服务器

最后一个步骤,如果想要持续的获取,那么找一个服务器,然后部署就行啦,有兴趣的博友,继续研究下去吧~

python3爬虫入门教程

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

Python爬虫入门教程 52-100

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

Python爬虫入门教程 52-100

写在前面关于获取文章自动发送到邮箱,这类需求其实可以写好几个网站,弄完博客园,弄CSDN,弄掘金,弄其他的,网站多的是呢~哈哈先从博客园开始,基本需求,获取python板块下面的新文章,间隔60分钟发送一次,时间太短估摸着没有多少新博客产出
2023-01-30

Python爬虫入门教程 15-100

石家庄政民互动数据爬取-写在前面今天,咱抓取一个网站,这个网站呢,涉及的内容就是 网友留言和回复,特别简单,但是网站是gov的。网址为http://www.sjz.gov.cn/col/1490066682000/index.html首先声
2023-01-30

Python爬虫入门教程 19-100

从今天开始的几篇文章,我将就国内目前比较主流的一些在线学习平台数据进行抓取,如果时间充足的情况下,会对他们进行一些简单的分析,好了,平台大概有51CTO学院,CSDN学院,网易云课堂,慕课网等平台,数据统一抓取到mongodb里面,如果对上
2023-01-30

Python爬虫入门教程 29-100

1. 手机APP数据----写在前面继续练习pyspider的使用,最近搜索了一些这个框架的一些使用技巧,发现文档竟然挺难理解的,不过使用起来暂时没有障碍,估摸着,要在写个5篇左右关于这个框架的教程。今天教程中增加了图片的处理,你可以重点学
2023-01-30

Python爬虫入门教程 32-100

1. B站博人传评论数据爬取简介今天想了半天不知道抓啥,去B站看跳舞的小姐姐,忽然看到了评论,那就抓取一下B站的评论数据,视频动画那么多,也不知道抓取哪个,选了一个博人传跟火影相关的,抓取看看。网址: https://www.bilibil
2023-01-30

Python爬虫入门教程 38-100

爬前叨叨今天要爬取一下正规大学名单,这些名单是教育部公布具有招生资格的高校名单,除了这些学校以外,其他招生的单位,其所招学生的学籍、发放的毕业证书国家均不予承认,也就是俗称的野鸡大学!网址是 https://daxue.eol.cn/min
2023-01-30

Python爬虫入门教程 59-100

图片比对昨天的博客已经将图片存储到了本地,今天要做的第一件事情,就是需要在两张图片中进行比对,将图片缺口定位出来缺口图片完整图片计算缺口坐标对比两张图片的所有RBG像素点,得到不一样像素点的x值,即要移动的距离 def get_dis
2023-01-31

Python爬虫入门教程 61-100

python3爬虫遇到了反爬当你兴冲冲的打开一个网页,发现里面的资源好棒,能批量下载就好了,然后感谢写个爬虫down一下,结果,一顿操作之后,发现网站竟然有反爬措施,尴尬了。接下来的几篇文章,我们研究一下各种反爬虫套路,当然互联网没有100
2023-01-31

Python爬虫入门教程 10-100

图虫网-写在前面经历了一顿噼里啪啦的操作之后,终于我把博客写到了第10篇,后面,慢慢的会涉及到更多的爬虫模块,有人问scrapy 啥时候开始用,这个我预计要在30篇以后了吧,后面的套路依旧慢节奏的,所以莫着急了,100篇呢,预计4~5个月写
2023-01-30

Python爬虫入门教程 18-100

很高兴我这系列的文章写道第18篇了,今天写一个爬虫爱好者特别喜欢的网站煎蛋网http://jandan.net/ooxx,这个网站其实还是有点意思的,网站很多人写了N多的教程了,各种方式的都有,当然网站本身在爬虫爱好者的不断进攻下,也在不断
2023-01-30

Python爬虫入门教程 20-100

美好的一天又开始了,今天咱继续爬取IT在线教育类网站,慕课网,这个平台的数据量并不是很多,所以爬取起来还是比较简单的打开我们要爬取的页面,寻找分页点和查看是否是异步加载的数据。进行了一些相应的分析,发现并没有异步数据,只需要模拟翻页就,在进
2023-01-30

Python爬虫入门教程 36-100

爬前叨叨2018年就要结束了,还有4天,就要开始写2019年的教程了,没啥感动的,一年就这么过去了,今天要爬取一个网站叫做酷安,是一个应用商店,大家可以尝试从手机APP爬取,不过爬取APP的博客,我打算在50篇博客之后在写,所以现在就放一放
2023-01-30

Python爬虫入门教程 46-100

1. 手机收音机-爬前叨叨今天选了一下,咱盘哪个APP呢,原计划是弄荔枝APP,结果发现竟然没有抓到数据,很遗憾,只能找个没那么圆润的了。搜了一下,找到一个手机收音机 下载量也是不错的。2. 爬虫套路爬虫基本套路抓包获取链接分析数据抓数据使
2023-01-30

Python爬虫入门教程 37-100

爬前叨叨2019年开始了,今年计划写一整年的博客呢~,第一篇博客写一下 一个外包网站的爬虫,万一你从这个外包网站弄点外快呢,呵呵哒数据分析官方网址为 https://www.clouderwork.com/进入全部项目列表页面,很容易分辨出
2023-01-30

Python爬虫入门教程 45-100

1. Charles抓取兔儿故事背景介绍之前已经安装了Charles,接下来我将用两篇博客简单写一下关于Charles的使用,今天抓取一下兔儿故事里面关于小猪佩奇的故事。爬虫编写起来核心的重点是分析到链接,只要把链接分析到,剩下的就好办了。
2023-01-30

Python爬虫入门教程 55-100

验证码探究如果你是一个数据挖掘爱好者,那么验证码是你避免不过去的一个天坑,和各种验证码斗争,必然是你成长的一条道路,接下来的几篇文章,我会尽量的找到各种验证码,并且去尝试解决掉它,中间有些技术甚至我都没有见过,来吧,一起Coding吧数字+
2023-01-31

Python爬虫入门教程 57-100

滑动验证码介绍本篇博客涉及到的验证码为滑动验证码,不同于极验证,本验证码难度略低,需要的将滑块拖动到矩形区域右侧即可完成。这类验证码不常见了,官方介绍地址为:https://promotion.aliyun.com/ntms/act/cap
2023-01-31

Python爬虫入门教程 40-100

爬前叨叨第40篇博客吹响号角,爬取博客园博客~本文最终抓取到了从2010年1月1日到2019年1月7日的37W+文章,后面可以分析好多东西了呢经常看博客的同志知道,博客园每个栏目下面有200页,多了的数据他就不显示了,最多显示4000篇博客
2023-01-30

Python爬虫入门教程 25-100

1. 知乎文章图片写在前面今天开始尝试爬取一下知乎,看一下这个网站都有什么好玩的内容可以爬取到,可能断断续续会写几篇文章,今天首先爬取最简单的,单一文章的所有回答,爬取这个没有什么难度。找到我们要爬取的页面,我随便选了一个https://w
2023-01-30

Python爬虫入门教程 30-100

1. 高考派大学数据----写在前面终于写到了scrapy爬虫框架了,这个框架可以说是python爬虫框架里面出镜率最高的一个了,我们接下来重点研究一下它的使用规则。安装过程自己百度一下,就能找到3种以上的安装手法,哪一个都可以安装上可以参
2023-01-30

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录