我的编程空间,编程开发者的网络收藏夹
学习永远不晚

python 去除html标签的几种方法

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

python 去除html标签的几种方法

#! /usr/bin/python
# -*- coding:utf-8 -*-
'''
Created on 2013-12-18

@author: Java
'''
import re
from HTMLParser import HTMLParser
class FilterTag():
    def __init__(self):
        pass
    def filterHtmlTag(self,htmlStr):
        '''
        过滤html中的标签
        :param htmlStr:html字符串 或是网页源码
        '''
        self.htmlStr = htmlStr
        #先过滤CDATA
        re_cdata=re.compile('//<!\[CDATA\[[^>]*//\]\]>',re.I) #匹配CDATA
        re_script=re.compile('<\s*script[^>]*>[^<]*<\s*/\s*script\s*>',re.I)#Script
        re_style=re.compile('<\s*style[^>]*>[^<]*<\s*/\s*style\s*>',re.I)#style
        re_br=re.compile('<br\s*?/?>')#处理换行
        re_h=re.compile('</?\w+[^>]*>')#HTML标签
        re_comment=re.compile('<!--[^>]*-->')#HTML注释
        s=re_cdata.sub('',htmlStr)#去掉CDATA
        s=re_script.sub('',s) #去掉SCRIPT
        s=re_style.sub('',s)#去掉style
        s=re_br.sub('\n',s)#将br转换为换行
        blank_line=re.compile('\n+')#去掉多余的空行
        s = blank_line.sub('\n',s)
        s=re_h.sub('',s) #去掉HTML 标签
        s=re_comment.sub('',s)#去掉HTML注释
        #去掉多余的空行
        blank_line=re.compile('\n+')
        s=blank_line.sub('\n',s)
        filterTag = FilterTag()
        s=filterTag.replaceCharEntity(s)#替换实体
        print  s
    
    def replaceCharEntity(self,htmlStr):
        '''
        替换html中常用的字符实体
        使用正常的字符替换html中特殊的字符实体
        可以添加新的字符实体到CHAR_ENTITIES 中
    CHAR_ENTITIES是一个字典前面是特殊字符实体  后面是其对应的正常字符
        :param htmlStr:
        '''
        self.htmlStr = htmlStr
        CHAR_ENTITIES={'nbsp':' ','160':' ',
                'lt':'<','60':'<',
                'gt':'>','62':'>',
                'amp':'&','38':'&',
                'quot':'"','34':'"',}
        re_charEntity=re.compile(r'&#?(?P<name>\w+);')
        sz=re_charEntity.search(htmlStr)
        while sz:
            entity=sz.group()#entity全称,如>
            key=sz.group('name')#去除&;后的字符如(" "--->key = "nbsp")    去除&;后entity,如>为gt
            try:
                htmlStr= re_charEntity.sub(CHAR_ENTITIES[key],htmlStr,1)
                sz=re_charEntity.search(htmlStr)
            except KeyError:
                #以空串代替
                htmlStr=re_charEntity.sub('',htmlStr,1)
                sz=re_charEntity.search(htmlStr)
        return htmlStr
    
    def replace(self,s,re_exp,repl_string):
        return re_exp.sub(repl_string)
    
    
    def strip_tags(self,htmlStr):
        '''
        使用HTMLParser进行html标签过滤
        :param htmlStr:
        '''
        
        self.htmlStr = htmlStr
        htmlStr = htmlStr.strip()
        htmlStr = htmlStr.strip("\n")
        result = []
        parser = HTMLParser()
        parser.handle_data = result.append
        parser.feed(htmlStr)
        parser.close()
        return  ''.join(result)
    
    def stripTagSimple(self,htmlStr):
        '''
        最简单的过滤html <>标签的方法    注意必须是<任意字符>  而不能单纯是<>
        :param htmlStr:
        '''
        self.htmlStr = htmlStr
#         dr =re.compile(r'<[^>]+>',re.S)
        dr = re.compile(r'</?\w+[^>]*>',re.S)
        htmlStr =re.sub(dr,'',htmlStr)
        return  htmlStr

if __name__=='__main__':
#     s = file('Google.html').read()
    filters = FilterTag()
    print filters.stripTagSimple("<1>你好<html>")
    
                
                
                
        
        
        
        

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

python 去除html标签的几种方法

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

python 去除html标签的几种方法

#! /usr/bin/python# -*- coding:utf-8 -*-'''Created on 2013-12-18@author: Java'''import refrom HTMLParser import HTMLPars
2023-01-31

Python去除html标签的几种方法总结

这篇文章主要介绍了Python去除html标签的几种方法总结,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
2023-01-03

使用python去除HTML中标签的几种

这个repo 用来记录一些python技巧、书籍、学习链接等,欢迎stargithub地址待删除HTML示例标签如下:In [96]: testOut[96]: '

just for test


just fo
2023-01-31

使用java去除html标签的方法

这篇文章主要为大家展示了“使用java去除html标签的方法”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“使用java去除html标签的方法”这篇文章吧。在java中,可以使用replaceAl
2023-06-15

php去除标签内的内容的方法

这篇文章主要讲解了“php去除标签内的内容的方法”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“php去除标签内的内容的方法”吧!php去除标签内的内容的方法:1、使用“strip_html_
2023-06-20

Android中去掉标题栏的几种方法(三种)

1.在java代码中 (SplashActivity继承AppCompatActivity时无效)2.在manifest.xml中改Theme3.先在style.xml中自定义style
2022-06-06

php去掉p标签的方法

这篇文章主要介绍php去掉p标签的方法,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!php去掉p标签的方法:首先打开相应的PHP文件;然后通过php正则表达式“preg_replace("/|<\ p="">/is"
2023-06-08

JavaScript获取标签的几种方式小结

本文主要介绍了JavaScript获取标签的几种方式小结,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
2023-02-17

Python如何剥去 HTML、XML 以及 PHP 的标签

本文介绍了如何使用Python从HTML、XML和PHP文档中剥离标签。它提供了库方法(如BeautifulSoup和lxml)和正则表达式方法的示例。库方法通常更有效,而正则表达式更灵活。选择方法时需要考虑性能和灵活性。
Python如何剥去 HTML、XML 以及 PHP 的标签
2024-04-02

css怎么去掉a标签的下划线(两种方法)

CSS是一种用于网页样式设计的语言,通过CSS可以自定义网页的各种样式效果。在网页设计中,经常会用到a标签,表示超链接。虽然a标签本身是不会产生下划线的,但是在一些浏览器中默认会加上下划线,影响美观性。那么如何去掉a标签的下划线呢?有两种方法可以去掉a标签的下划线。第一种方法是通过设置CSS样式去掉下划线。在CSS中,a标签有一个叫做text-decoration的属性,该属性
2023-05-14

实例讲解使用css去除浮动的几种方法

CSS布局中,float(浮动)是一个非常重要的属性,通过设置元素的浮动方向可以方便地实现页面布局效果。但是浮动元素也会带来一些问题,特别是在父元素没有设置高度时,子元素浮动可能会导致父元素高度塌陷,造成页面布局的混乱。因此,正确去除浮动也是Web开发中的重要一环。在这篇文章中,我们将通过实例来展示一些去除浮动的方法,包括通过清除浮动(clear)、使用伪元素、使用CSS Gr
2023-05-14

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录