无法被html.Parse() 解析的HTML格式

2024-04-04 23:24

短信预约 -IT技能 免费直播动态提醒

小伙伴们有没有觉得学习Golang很有意思？有意思就对了！今天就给大家带来《无法被html.Parse() 解析的HTML格式》，以下内容将会涉及到，若是在学习中对其中部分知识点有疑问，或许看了本文就能帮到你！

问题内容

我正在编写一个 go 函数来读取 html 响应正文并提取页面标题。总的来说，该函数工作得很好，但我想测试响应正文根本不是正确 html 的代码路径。我为单元测试创建一些无效 html 的简单尝试已经失败。

显然，根据 html.parse 文档，这是因为：

html5 解析算法 [...] 非常复杂。生成的树可以包含隐式创建的节点，这些节点在 r 的数据中没有列出显式 <tag>，并且节点的父节点可能与起始和结束 <tag>s 的简单处理所隐含的嵌套不同。相反，r 数据中的显式 <tag>s 可以被静默删除，而生成的树中没有相应的节点。

这里有一些代码演示了我一直在采取的方法：

https://play.golang.org/p/t5wjdtjncqq

package main

import (
    "bytes"
    "fmt"
    "golang.org/x/net/html"
)

func main() {
    inputs := []string{ "",
        "~",
        "<",
        "<ht",
        "<html",
        "<html>",
        "<html><",
        "<html><titl",
        "<html><title",
        "<html><title>",
        "<html><title>the c progr",
        "<html><title>the c programming language",
        "<html><title>the c programming language<",
        "<html><title>the c programming language</",
        "<html><title>the c programming language</ti",
        "<html><title>the c programming language</title",
        "<html><title>the c programming language</title>",
        "<html><title>the c programming language</title><",
        "<html><title>the c programming language</title></",
        "<html><title>the c programming language</title></ht",
        "<html><title>the c programming language</title></html",
        "<html><title>the c programming language</title></html>",
    }

    for _, in := range inputs {
        fmt.printf("%s\n", in)

        r := bytes.newreader([]byte(in))
        _, err := html.parse(r)
        if err != nil {
            fmt.printf("could not parse html\n")
            panic(err)
        }
    }
}

愚蠢的我，我本以为其中许多会产生错误，因为从表面上看它们是无效的 html，但上面的代码在没有 panic'ing 的情况下遍历所有输入字符串——也就是说，没有非-来自 html.parse() 的 nil err。

我想我很感激一个宽松/宽容的 html 解析器，但是：有没有人有一个在输入 go 的 html.parse() 时会产生错误的文本示例？

编辑 1

结合 ferrybig 和 creationtribe 评论中的想法，我什至尝试了巨大的随机字节流：

rand.Seed(time.Now().UnixNano())

    in := make([]byte, 0)
    for i := 0; i < 2147483647; i++ {
        in = append(in, byte(rand.Intn(255)))
    }
    fmt.Printf("len(in) : %d\n", len(in))

    r := bytes.NewReader(in)
    _, err := html.Parse(r)

...仍然没有错误。

是否没有输入会导致html.parse()出错？

解决方案

快速阅读https://github.com/golang/net/blob/master/html/token.go，似乎唯一返回的错误可能是：

一旦 r 完全读取成功，io.eof；
底层 io.reader 返回的任何其他错误；或
html.errbufferexceeded

在初次读取后如何触发 errbufferexceeded 对我来说并不明显，但您可以通过提供虚拟读取器来触发 html.parse 的错误：

type ErrReader struct { Error error }

func (e *ErrReader) Read([]byte) (int, error) {
    return nil, e.Error
}

https://play.golang.org/p/s78HpfMLAI8

希望有帮助

终于介绍完啦！小伙伴们，这篇关于《无法被html.Parse() 解析的HTML格式》的介绍应该让你收获多多了吧！欢迎大家收藏或分享给更多需要学习的朋友吧~编程网公众号也会发布Golang相关知识，快来关注吧！

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

阅读原文内容投诉

无法被html.Parse() 解析的HTML格式

下载Word文档到电脑，方便收藏和打印～

下载Word文档

无法被html.Parse() 解析的HTML格式

解决方案

无法被html.Parse() 解析的HTML格式

相关文章

猜你喜欢

无法被html.Parse() 解析的HTML格式

proto：无法解析无效的有线格式数据

Android使用Jsoup解析Html表格的方法

python对url格式解析的方法

android 解析json数据格式的方法

Win8系统下U盘无法格式化的原因分析及解决方法

Mac电脑无法将U盘格式化(抹除)为APFS格式的解决

MongoDB的BSON格式解析方法是什么

windows无法格式化u盘的解决办法是什么

Android编程解析Json格式数据的方法

u盘显示0字节无法格式化的解决方法

python中解析json格式文件的方法示例

Win7安装过程中无法分区以及分区无法格式化的解决方法

PHP接口无法返回JSON格式数据的解决方案

VScode更新后安装vetur仍无法格式化vue文件的解决

Android应用中使用DOM方式解析XML格式数据的基本方法

解决Win8系统中exe格式的视频课件无法播放问题

Linux 命令行工具解析和格式化输出 JSON的方法

SQL Server解析/操作Json格式字段数据的方法实例

xp系统无法格式化c盘的问题原因及解决方法是怎样的

热门标签

编程热搜

编程资源站

目录

感谢您的提交，我们服务专员将在30分钟内给您回复