我的编程空间,编程开发者的网络收藏夹
学习永远不晚

Python学习笔记__12.11章 H

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

Python学习笔记__12.11章 H

1、概览

HTML本质上是XML的子集,但是HTML的语法没有XML那么严格,所以不能用标准的DOM或SAX来解析HTML。

Python提供了HTMLParser来非常方便地解析HTML。而且,HTMLParse类里的函数名是不能改的

 

from html.parser import HTMLParser

from html.entities import name2codepoint

 

class MyHTMLParser(HTMLParser):

# 处理开始标签,比如<div>;这里的attrs获取到的是属性列表,属性以元组的方式展示

# <time datetime="2018">,tag标签是time。args是[["datetime","2018"]]

    def handle_starttag(self, tag, attrs):

        print('<%s>' % tag)

 

    def handle_endtag(self, tag): # 处理结束标签,比如</div>

        print('</%s>' % tag)

 

    def handle_startendtag(self, tag, attrs):  # 处理自己结束的标签,如<img />

        print('<%s/>' % tag)

 

    def handle_data(self, data): #处理数据,标签之间的文本

        print(data)

 

    def handle_comment(self, data): # 打印注释

        print('<!--', data, '-->')

 

    def handle_entityref(self, name): # 打印<body>中,没有被标签圈起来的内容 HTML tutorial...

        print('&%s;' % name)

 

    def handle_charref(self, name): # 打印特殊符号  --》 ?

        print('&#%s;' % name)

 

parser = MyHTMLParser()

# feed(str),为解释器提供文本。

parser.feed('''<html>

<head></head>

<body>

<!-- test html parser -->

    <p>Some <a href=\"#\">html</a> HTML tutorial...<br>END</p>

</body></html>''')

2、扩展文档

Python爬虫常用之HtmlParser (https://www.cnblogs.com/masako/p/5868367.html)

 

3、例子

1、找一个网页,例如https://www.python.org/events/python-events/,用浏览器查看源码并复制,然后尝试解析一下HTML,输出Python官网发布的会议时间、名称和地点。

 

方法一:小范围匹配

from html.parser import HTMLParser

from html.entities import name2codepoint

from urllib import request

import re

 

 

class MyHTMLParser(HTMLParser):

    a_t1 = False # 用于匹配状态的判断

    a_t2 = False

    a_t3 = False

    def __init__(self): # 初始化实例

        HTMLParser.__init__(self)

        self.information = []

        self.information_all = {}

 

 

    def handle_starttag(self, tag, attrs): # attrs是list['list']的存储方式

        def _attr(attrlist, attrname): # 接受的参数都是 attrs,和‘class’

            for attr in attrlist:  # attrs 是[[],[]]类的,那attr就是里面的list

                if attr[0] == attrname: #如果匹配,返回attr[1]

                    return attr[1]

            return None

 

        if tag=="time" : # 如果条件对上了,修改匹配状态为True

            self.a_t1 = True

        elif tag=="span" and _attr(attrs, 'class')=="event-location":

            self.a_t2 = True

        elif tag=="h3" and _attr(attrs, 'class')=="event-title":

            self.a_t3 = True

 

 

    def handle_data(self, data):

        if self.a_t1 is True:

            if re.match(r'^\s\d{4}', data): # 取data数据

                self.information.append(dict(year=data))

            else:

                self.information.append(dict(day=data))

        elif self.a_t2 is True:

            self.information.append(dict(event_location=data)) 取地址数据

        elif self.a_t3 is True:

            self.information.append(dict(event_title=data)) # 取标题数据

 

 

    def handle_endtag(self, tag): # 将匹配状态重置,为后续继续检索做准备

        if tag == "time":

            self.a_t1 = False

        elif tag =="span":

            self.a_t2 = False

        elif tag == "h3":

            self.a_t3 = False

 

 

 

def parseHTML(html_str):

    parser = MyHTMLParser()

    parser.feed(html_str) #接受HTML并解析

    for i, val in enumerate(parser.information): #enumerate将list变为索引-元素对。遍历打印value

        i +=  1

        print(val)

        if i%4==0:

 

            print('--------------------------------------------')

 

 

URL = 'https://www.python.org/events/python-events/'

with request.urlopen(URL, timeout=4) as f:  # 收集页面信息

    data = f.read()

 

parseHTML(data.decode('utf-8')) #将收到的信息解码,并传给parseHTML()调用

 

方法二:大范围匹配

from html.parser import HTMLParser

from urllib import request

import re

 

class MyHTMLParser(HTMLParser):

    flag = 0

    res = []

    is_get_data = 0

 

    def handle_starttag(self, tag, attrs):

        # 首先找到包裹事件的元素

        if tag == 'ul':

            for attr in attrs:

                if re.match(r'list-recent-events', attr[1]):

                    self.flag = 1

 

        # 处理包裹事件名称的a元素

        if tag == 'a' and self.flag == 1:

            self.is_get_data = 'title'

 

        # 处理时间的time元素

        if tag == 'time' and self.flag == 1:

            self.is_get_data = 'time'

 

        # 处理包裹地点的time元素

        if tag == 'span' and self.flag == 1:

            self.is_get_data = 'addr'

 

    def handle_endtag(self, tag):

        if self.flag == 1 and tag == 'ul':

            self.flag = 0

 

    def handle_data(self, data):

        if self.is_get_data and self.flag == 1:

            if self.is_get_data == 'title':

                #获得title,即会议名时,给res添加一个新dict:res 由[] 变为 [{'title':'PyCascades 2018'}],此时len(self.res)==1

                self.res.append({self.is_get_data: data})

            else:

            # 获得addr,time这样的其它属性时,相当于res[0][time]=data。

            # 这是将time=data键值对加到了此前的那个字典里,现在len(self.res)依然==1

                self.res[len(self.res) - 1][self.is_get_data] = data

            self.is_get_data = None

 

 

parser = MyHTMLParser()

 

with request.urlopen('https://www.python.org/events/python-events/') as f:

    data = f.read().decode('utf-8')

 

parser.feed(data)

for item in MyHTMLParser.res:

    print('---------------')

    for k,v in item.items():

        print("%s : %s" % (k,v))

 


免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

Python学习笔记__12.11章 H

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

Python学习笔记__12.11章 H

1、概览HTML本质上是XML的子集,但是HTML的语法没有XML那么严格,所以不能用标准的DOM或SAX来解析HTML。Python提供了HTMLParser来非常方便地解析HTML。而且,HTMLParse类里的函数名是不能改的 fro
2023-01-31

Python学习笔记(1~26页)(《H

大脑会尽力记住确实重要的事情,它不会费心地去记乏味的东西。    与单纯的文字相比,图片更能让人记得住,通过图片,学习效率会更高(图片中夹杂解说文字)。    如果你发现刚看得东西,立刻就忘记,那你该歇歇了。    睡觉前不要看别的书,至少
2023-01-31

Python学习笔记__12.3章 ba

# 这是学习廖雪峰老师python教程的学习笔记Base64是一种用64个字符来表示任意二进制数据的方法。Base64是一种最常见的二进制编码方法,用作二进制到字符串的转换1、Base64的原理        1)准备一个包含64个字符的数
2023-01-31

Python学习笔记__12.7章 it

# 这是学习廖雪峰老师python教程的学习笔记1、概览Python的内建模块itertools提供了非常有用的用于操作迭代对象的函数。1.1、itertools提供的几个“无限”迭代器                0)count()>>
2023-01-31

Python学习笔记—第一章—Pytho

书目:Python(Unix和Linux系统管理指南)学习日期:20120627知识点总结:Python的优势:既简单易学,也可以完成任何复杂任务可读性好(严格的代码缩进格式)支持面向对象编程(OOP)强大的Python社区强大的Pytho
2023-01-31

Python学习笔记—第二章—IPyth

书目:Python(Unix和Linux系统管理指南)学习日期:20130807知识点总结:安装IPython:源码安装:tar zxvf ipython-0.13.2.tar.gzpython setup.py install通过系统的软
2023-01-31

python 学习笔记第二章:安装pyt

记得上次写python的学习笔记是三个月以前了,期间看过,也放下过,这次要坚持下来,一鼓作气,吃下python。   本文内容主要是根据《Python 简明教程》和自己的一些理解去写的,有问题,还请指出。 一、Linux 下安装    如果
2023-01-31

Python学习笔记

Python介绍Python是一种解释型、面向对象的语言。官网:www.python.orgPython环境解释器:www.python.org/downloads运行方式:交互模式。在IDLE中运行。脚本模式。文件的后缀名为.py。
2023-01-30

Python 学习笔记

rs=Person.objects.all()all返回的是QuerySet对象,程序并没有真的在数据库中执行SQL语句查询数据,但支持迭代,使用for循环可以获取数据。print rs.query 会打印出原生sql语句rs=Person
2023-01-31

python学习笔记--趣学Python

由反弹球和球拍构成的游戏。球会在屏幕上飞过来,玩家要用球拍把它弹回去画布和画弹球引入模块#Tkinter -- Python的标准GUI库,Tk 接口,是python 内置的安装包from tkinter import *import ra
2023-01-31

Python学习笔记(1)

1 def sum_args(*args):2 return sum(args))3 4 def run_with_positional_args(func, *args):5 return func(*args)6
2023-01-31

Python 学习笔记 - SQLAlc

继续上一篇SQLAlchemy的学习之旅。多对多表的创建表Host和表HostUser通过表HostToHostUser关联在一起from sqlalchemy import create_enginefrom sqlalchemy.ext
2023-01-31

python scapy学习笔记

1. ubuntu下安装gnuplot 转自:http://blog.163.com/gz_ricky/blog/static/182049118201362501316961/2.安装PyX sudo pip install pyx==0
2023-01-31

python scrapy学习笔记

scrapy是python最有名的爬虫框架之一,可以很方便的进行web抓取,并且提供了很强的定制型。一、安装scrapy# pip install scrapy二、基本使用1、初始化scrapy项目# scrapy startproject
2023-01-31

python egg学习笔记

原文链接:http://www.worldhello.net/2010/12/08/2178.html经常接触Python的同学可能会注意到,当需要安装第三方python包时,可能会用到easy_install命令。easy_install
2023-01-31

Python 学习笔记 - Memcac

Memcached是一个分布式内存对象缓存系统,他把数据缓存在内存里面来减少对数据库的访问,从而提高动态网页的访问速度。他的基本结构是key/value(键值对)。下面看看在Python里面如何使用。首先来安装一下服务器端,豆子直接在一个C
2023-01-31

Python学习笔记(matplotli

Python学习笔记--在Python中如何调整颜色和样式  参靠视频:《Python数据可视化分析 matplotlib教程》链接:https://www.bilibili.com/video/av6989413/?p=6所用的库及环境:
2023-01-30

python-memcached学习笔记

介绍:  memcached是免费、开源、高性能、分布式内存对象的缓存系统(键/值字典),旨在通过减轻数据库负载加快动态web应用程序的使用。  数据类型:只用一种字符串类型1:安装sudo apt-get install memcache
2023-01-31

Python学习笔记四(Python

Python os模块提供了一个统一的操作系统接口函数,通过python os模块可以实现对系统本身的命令,文件,目录进行操作,官方参考文档( http://docs.python.org/library/os)。1)os.sep 可以取代
2023-01-31

Python学习笔记-SQLSERVER

环境 : python3.6 / win10 / vs2017 / sqlserver2017一、需要安装的包pymssqlpip install pymssql二、pymssql模块的介绍pymssql 包 有modules:pymssq
2023-01-30

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录