我的编程空间,编程开发者的网络收藏夹
学习永远不晚

无法被html.Parse() 解析的HTML格式

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

无法被html.Parse() 解析的HTML格式

小伙伴们有没有觉得学习Golang很有意思?有意思就对了!今天就给大家带来《无法被html.Parse() 解析的HTML格式》,以下内容将会涉及到,若是在学习中对其中部分知识点有疑问,或许看了本文就能帮到你!

问题内容

我正在编写一个 go 函数来读取 html 响应正文并提取页面标题。总的来说,该函数工作得很好,但我想测试响应正文根本不是正确 html 的代码路径。我为单元测试创​​建一些无效 html 的简单尝试已经失败。

显然,根据 html.parse 文档,这是因为:

html5 解析算法 [...] 非常复杂。生成的树可以包含隐式创建的节点,这些节点在 r 的数据中没有列出显式 <tag>,并且节点的父节点可能与起始和结束 <tag>s 的简单处理所隐含的嵌套不同。相反,r 数据中的显式 <tag>s 可以被静默删除,而生成的树中没有相应的节点。

这里有一些代码演示了我一直在采取的方法:

https://play.golang.org/p/t5wjdtjncqq

package main

import (
    "bytes"
    "fmt"
    "golang.org/x/net/html"
)

func main() {
    inputs := []string{ "",
        "~",
        "<",
        "<ht",
        "<html",
        "<html>",
        "<html><",
        "<html><titl",
        "<html><title",
        "<html><title>",
        "<html><title>the c progr",
        "<html><title>the c programming language",
        "<html><title>the c programming language<",
        "<html><title>the c programming language</",
        "<html><title>the c programming language</ti",
        "<html><title>the c programming language</title",
        "<html><title>the c programming language</title>",
        "<html><title>the c programming language</title><",
        "<html><title>the c programming language</title></",
        "<html><title>the c programming language</title></ht",
        "<html><title>the c programming language</title></html",
        "<html><title>the c programming language</title></html>",
    }

    for _, in := range inputs {
        fmt.printf("%s\n", in)

        r := bytes.newreader([]byte(in))
        _, err := html.parse(r)
        if err != nil {
            fmt.printf("could not parse html\n")
            panic(err)
        }
    }
}

愚蠢的我,我本以为其中许多会产生错误,因为从表面上看它们是无效的 html,但上面的代码在没有 panic'ing 的情况下遍历所有输入字符串——也就是说,没有非-来自 html.parse()nil err

我想我很感激一个宽松/宽容的 html 解析器,但是:有没有人有一个在输入 go 的 html.parse() 时会产生错误的文本示例?

编辑 1

结合 ferrybig 和 creationtribe 评论中的想法,我什至尝试了巨大的随机字节流:

rand.Seed(time.Now().UnixNano())

    in := make([]byte, 0)
    for i := 0; i < 2147483647; i++ {
        in = append(in, byte(rand.Intn(255)))
    }
    fmt.Printf("len(in) : %d\n", len(in))

    r := bytes.NewReader(in)
    _, err := html.Parse(r)

...仍然没有错误。

是否没有输入会导致html.parse()出错?


解决方案


快速阅读https://github.com/golang/net/blob/master/html/token.go,似乎唯一返回的错误可能是:

  • 一旦 r 完全读取成功,io.eof;
  • 底层 io.reader 返回的任何其他错误;或
  • html.errbufferexceeded

在初次读取后如何触发 errbufferexceeded 对我来说并不明显,但您可以通过提供虚拟读取器来触发 html.parse 的错误:

type ErrReader struct { Error error }

func (e *ErrReader) Read([]byte) (int, error) {
    return nil, e.Error
}

https://play.golang.org/p/s78HpfMLAI8

希望有帮助

终于介绍完啦!小伙伴们,这篇关于《无法被html.Parse() 解析的HTML格式》的介绍应该让你收获多多了吧!欢迎大家收藏或分享给更多需要学习的朋友吧~编程网公众号也会发布Golang相关知识,快来关注吧!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

无法被html.Parse() 解析的HTML格式

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

无法被html.Parse() 解析的HTML格式

小伙伴们有没有觉得学习Golang很有意思?有意思就对了!今天就给大家带来《无法被html.Parse() 解析的HTML格式》,以下内容将会涉及到,若是在学习中对其中部分知识点有疑问,或许看了本文就能帮到你!问题内容我正在编写一个 go
无法被html.Parse() 解析的HTML格式
2024-04-04

proto:无法解析无效的有线格式数据

问题内容我是 protobufs 的新手,目前正在编写一个从 nats 服务器读取数据的客户端。从 nats 服务器发送的数据是 protobuf。我正在编写的客户端是用 go 编写的。这是我编写的 .proto 文件:syntax
proto:无法解析无效的有线格式数据
2024-02-06

Android使用Jsoup解析Html表格的方法

本文实例讲述了Android使用Jsoup解析Html表格的方法。分享给大家供大家参考,具体如下: 看代码吧,可解析表中的label text button 自己根据需要再添加,呵呵import java.util.ArrayList; i
2022-06-06

python对url格式解析的方法

本文实例讲述了python对url格式解析的方法。分享给大家供大家参考。具体分析如下:python针对url格式的解析,可根据指定的完整URL解析出url地址的各个部分?1234567891011121314fromurlparse imp
2023-01-31

android 解析json数据格式的方法

json数据格式解析我自己分为两种; 一种是普通的,一种是带有数组形式的; 普通形式的:服务器端返回的json数据格式如下:代码如下:{"userbean":{"Uid":"100196","Showname":"\u75af\u72c2\
2022-06-06

Win8系统下U盘无法格式化的原因分析及解决方法

U盘无法格式化的具体现象,如下图所示:原因分析: 1、移动硬盘或U盘等,造成数据的损坏; 2、U盘中毒,查杀病毒不彻底或病毒将U盘系统文件破坏; 3、操作系统或非常规操作(如不兼容的读写设备); 4、还有些U盘上带有一个小开关,如果设置为锁
2022-06-04

Mac电脑无法将U盘格式化(抹除)为APFS格式的解决

概览 很多小伙伴把新买的U盘插在Mac上,然后想把它格式化(抹除)为APFS格式。但却只能选择旧的Mac OS 扩展类型格式,压根看不到APFS格式的选项: 如上图所示,在U盘抹除中根本看不到 APFS 格式。 其实解决起来非常容易,
2023-08-16

MongoDB的BSON格式解析方法是什么

在MongoDB中,BSON是一种二进制的序列化格式,类似于JSON,但更适合用于存储和检索数据。BSON格式的数据可以通过各种编程语言的驱动程序进行解析和操作。在MongoDB的官方驱动程序中,通常会提供一些方法来解析BSON格式的数据
MongoDB的BSON格式解析方法是什么
2024-05-07

windows无法格式化u盘的解决办法是什么

本篇文章给大家分享的是有关windows无法格式化u盘的解决办法是什么,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。在日常生活中我们经常需要使用到U盘,不过U盘有时候也会出现问
2023-06-28

Android编程解析Json格式数据的方法

本文实例讲述了Android编程解析Json格式数据的方法。分享给大家供大家参考,具体如下:package com.practice.json; import org.json.JSONArray; import org.json.JSON
2022-06-06

u盘显示0字节无法格式化的解决方法

小编给大家分享一下u盘显示0字节无法格式化的解决方法,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!u盘0字节无法格式化下载并打开U盘量产工具将U盘插入,在弹出的窗口中,选择默认选项专案点击【设置】,将模式选为重新生产然后点
2023-06-27

python中解析json格式文件的方法示例

前言 JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式。它基于JavaScript(Standard ECMA-262 3rd Edition - December 1999)的一个子集。 JSO
2022-06-04

Win7安装过程中无法分区以及分区无法格式化的解决方法

和当年Windows XP正式推出前一样,系统分区的要求(比如分区格式和空间大小等)一直都是用户津津乐道的话题,与之相关的话题还有“我的XP怎么安装不了”。在Windows7时代,类似的话题和问题也同样存在,安装过程
2023-06-01

PHP接口无法返回JSON格式数据的解决方案

PHP接口无法返回JSON格式数据的解决方案在开发过程中,我们经常会遇到需要使用PHP接口返回JSON格式数据的情况。然而,有时候可能会遇到无法正确返回JSON格式数据的问题。本文将介绍一些解决方案,同时给出具体的代码示例。问题分析当
PHP接口无法返回JSON格式数据的解决方案
2024-03-12

VScode更新后安装vetur仍无法格式化vue文件的解决

这篇文章主要介绍了VScode更新后安装vetur仍无法格式化vue文件的解决方案,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
2022-11-13

Android应用中使用DOM方式解析XML格式数据的基本方法

DOM比SAX更容易掌握,因为她没有涉及回调和复杂的状态管理,然而,DOM的实现常常将所有的XML节点保存在内存中,这样使的处理较大的文档效率低。 XML基本的节点类型 node - DOM基本的数据类型 Element - 最主要处理的对
2022-06-06

解决Win8系统中exe格式的视频课件无法播放问题

如今很多人逐渐开始用上Windows 8系统,但使用中也发现了一些问题。很多用户表示在Win8系统中,exe格式的视频课件无法播放,因此造成很大的麻烦。这种情况该怎么解决呢?解决方法点击课件下载后,注意浏览器下边栏,如下图:  可以单击保存
2022-06-04

Linux 命令行工具解析和格式化输出 JSON的方法

jsON 是一种轻量级且与语言无关的数据存储格式,易于与大多数编程语言集成,也易于人类理解 —— 当然,如果格式正确的话。JSON 这个词代表 J ava S cript O bject N otation,虽然它以 javascript
2022-06-04

xp系统无法格式化c盘的问题原因及解决方法是怎样的

xp系统无法格式化c盘的问题原因及解决方法是怎样的,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。一位XP系统用户想在电脑中安装Win7组成双系统,因此想要将C盘格式化,再将
2023-06-13

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录