位置：首页-资讯-后端开发

Python 用HTMLParser解析

2023-01-31 05:25

短信预约 -IT技能 免费直播动态提醒

HTMLParser是Python自带的模块，使用简单，能够很容易的实现HTML文件的分析。
本文主要简单讲一下HTMLParser的用法.

使用时需要定义一个从类HTMLParser继承的类，重定义函数：

handle_starttag( tag, attrs)
handle_startendtag( tag, attrs)
handle_endtag( tag)

来实现自己需要的功能。

tag是的html标签，attrs是 (属性，值)元组(tuple)的列表(list).
HTMLParser自动将tag和attrs都转为小写。

下面给出的例子抽取了html中的所有链接：

from HTMLParser import HTMLParser
 
class MyHTMLParser(HTMLParser):
    def __init__(self):
        HTMLParser.__init__(self)
        self.links = []
 
    def handle_starttag(self, tag, attrs):
        #print "Encountered the beginning of a %s tag" % tag
        if tag == "a":
            if len(attrs) == 0: pass
            else:
                for (variable, value)  in attrs:
                    if variable == "href":
                        self.links.append(value)
 
if __name__ == "__main__":
    html_code = """
    <a href="www.google.com"> google.com</a>
    <A Href="www.pythonclub.org"> PythonClub </a>
    <A HREF = "www.sina.com.cn"> Sina </a>
    """
    hp = MyHTMLParser()
    hp.feed(html_code)
    hp.close()
    print(hp.links)

输出为：


['www.google.com', 'www.pythonclub.org', 'www.sina.com.cn']

如果想抽取图形链接


<img class="lazy" data-src='/file/imgs/upload/202301/31/j1st2cyfnb5.jpg' />

就要重定义 handle_startendtag( tag, attrs) 函数

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

Python HTMLParser

阅读原文内容投诉

Python 用HTMLParser解析

下载Word文档到电脑，方便收藏和打印～

下载Word文档

Python 用HTMLParser解析

Python 用HTMLParser解析

相关文章

猜你喜欢

Python 用HTMLParser解析

【Python】np.clip()用法解析

用python解析html[SGMLPa

利用python来解析html

Python中torch.norm()用法解析

python munch库的使用解析

怎么使用Python解析JSON

Python XML解析

Python 解析XML

Python 之解析

python使用protobufde的过程解析

解析Python中while true的使用

python常用的几种GUI解析

python xlwt模块的使用解析

【python】13、解析式

python日志解析

python解析http request

【Python爬虫】数据解析之bs4解析和xpath解析

Python 文档解析lxml库的使用详解

Python使用XPath解析HTML的方法详解

热门标签

编程热搜

编程资源站

目录

感谢您的提交，我们服务专员将在30分钟内给您回复