我的编程空间,编程开发者的网络收藏夹
学习永远不晚

Dom树的重建方法教程

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

Dom树的重建方法教程

这篇文章主要讲解了“Dom树的重建方法教程”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Dom树的重建方法教程”吧!

这种情况下,通用爬虫一般会分成几个不同的部分,如下图所示:

Dom树的重建方法教程

其中,HTML 源码改写这一个组件,会根据一定的策略对网页源代码进行修改,剔除无关的节点,合并复杂但没有必要的嵌套节点……改写以后,输出相对标准和统一的  HTML,传给下游的信息抽取组件进行内容抽取。

这位同学的问题,就涉及到对源代码进行改写。实际上,使用 lxml 在 DOM 树中插入一个节点,这本来根本不是什么问题。任何一个会使用 Google  的同学,只要搜索lxml html insert element,自然就能找到大量的解决方法,如下图所示:

Dom树的重建方法教程

但是,这个问题怪就怪在,它需要在文本节点的前面增加子节点。干讲可能不好描述,我用一个例子来说明这个问题。

大家先来看这段代码:

from lxml.html import fromstring, Element, etree from html import unescape html = ''' <div>     <p>你好</p> </div> '''  node = fromstring(html) p_node = node.find('.//p') element = Element('span') element.text = '青南' p_node.insert(0, element) new_html = unescape(etree.tostring(node).decode()) print(new_html)

根据我们使用 Python 列表的经验,如果一个列表a现在是['你好'],当我们执行a.insert(0, '青南')以后,得到的结果应该是['青南',  '你好']。但是我们来看看上面这段代码的运行效果:

Dom树的重建方法教程

可以看到,青南是在你好后面的。大家再看本文最开头的图,提问者举出的例子中,他希望把子节点插入到文本之前。具体到这个例子中,应该是青南你好。

大家可以试一试,你在 Google 上面无论怎么搜索,都找不到如何把节点插入到文本前面的方法。

但实际上,只要回归官方文档,你就会发现整个问题的解决方法并不困难。我们需要使用的,是lxml.html.builder[1]。

还是上面的例子,如何把 span 标签弄到文本前面呢?我们用 builder来实现:

from lxml.html import builder from html import unescape   html = ''' <div></div> '''  node = fromstring(html) new_node = builder.P(builder.SPAN('青南'), '你好') node.append(new_node) new_html = unescape(etree.tostring(node).decode()) print(new_html)

运行效果如下图所示:

Dom树的重建方法教程

看到这里,可能有同学会觉得我在耍无赖。这就像是让我写一个程序,计算斐波那契数列前5项的值,于是我5秒钟写出了答案print(1, 1, 2, 3, 5)。上面的代码中,我直接使用builder.P(builder.SPAN('青南'), '你好'),这跟直接写<p><span>青南</span>你好</p>有什么区别?这不是在作弊吗?

我知道你很不服气,但是,这就是真实的情况。通用爬虫在做 HTML源码改写的时候,就是这样做的。因为直接对网页的 Dom 树进行改写是非常麻烦的事情。如果直接修改 Dom 树,经常会出现需要找一个节点的父节点,然后再找父节点的兄弟节点的子节点进行修改。或者要判断某个节点是否有子节点,有和没有,需要两种逻辑来处理,才能防止破坏 Dom 树。

所以,我们一般不会直接修改 Dom 树,而是一边扫描原始的 Dom 树,一边使用 builder 重建一个新的 Dom 树。重建 Dom 树的过程比修改 Dom 树的过程要简单很多,毕竟写过代码的人都知道,写新代码比改别人的代码容易很多。

感谢各位的阅读,以上就是“Dom树的重建方法教程”的内容了,经过本文的学习后,相信大家对Dom树的重建方法教程这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是编程网,小编将为大家推送更多相关知识点的文章,欢迎关注!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

Dom树的重建方法教程

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

Vue虚拟dom被创建的方法

这篇文章主要介绍了Vue虚拟dom是如何被创建的方法,本文通过实例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
2022-11-13

笔记本重装系统win8的方法教程

目前多的人都认为自已不容易重装系统,实际上重装系统的方法并没那麼难.只需依照合理的流程重装系统,每个人能自身重装系统.那麼接下来就来介绍一下笔记本重装系统win8的方法教程,赶紧来跟我一起看看吧.笔记本电脑电脑重装win8系统的教程1.返回
2023-07-13

教你快速搭建Node.Js服务器的方法教程

前言Node.js 是一个事件驱动 I/O 服务端 JavaScript 环境,也可以理解为服务器端运行的 JavaScript。JS 作为一门编程语言,是运行在称为 JS 运行时的虚拟机中的,而在 I/O 功能上,JS 更多依赖于宿主环境
2022-06-04

Python利用前序和中序遍历结果重建二叉树的方法

本文实例讲述了Python利用前序和中序遍历结果重建二叉树的方法。分享给大家供大家参考,具体如下: 题目:输入某二叉树的前序遍历和中序遍历的结果,请重建出该二叉树。假设输入的前序遍历和中序遍历的结果中都不含重复的数字。 这道题比较容易,前序
2022-06-04

详解Java构建树结构的公共方法

本文主要介绍了详解Java构建树结构的公共方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
2023-05-16

Vue3中操作dom的四种方式保姆级教程(推荐!)

某些情况下,我们仍然需要直接访问底层 DOM 元素,下面这篇文章主要给大家介绍了关于Vue3中操作dom的四种方式,文中通过实例代码介绍的非常详细,需要的朋友可以参考下
2023-05-17

C语言二叉树的建立与遍历方法

本篇内容介绍了“C语言二叉树的建立与遍历方法”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!目录这里给一个样例树:总结这里给一个样例树:代码:
2023-06-20

手机云服务器搭建方法教程

首先,需要了解如何配置移动云服务器,可以通过下载安装云服务器软件,可以根据自己的需求自由选择不同的版本,然后按照提示一步步设置完成;下载并安装云服务器软件,可以使用云服务器的官方安装程序进行安装,也可以通过在线网站进行下载,然后解压缩安装即可;打开云服务器的配置文件,可以找到“服务器名”、“客户端名”、“IP地址”等配置项,根据自身需求选择相应的项进行配置;配置完成后,需要在服务器上注册登
2023-10-26

云服务器本地搭建方法教程

在搭建云服务器时,用户需要考虑以下几个方面:选择合适的云服务器供应商在选择云服务器供应商时,需要考虑以下因素:云服务器的稳定性和安全性;云服务器的价格和服务质量;云服务器的数据备份和恢复能力。安装云服务器在确定好云服务器供应商后,需要进行安装云服务器的操作。常见的操作包括:安装云服务器操作系统;配置云服务器系统;安装云
云服务器本地搭建方法教程
2023-10-28

谷歌云服务器搭建方法教程

确定您的云服务器:选择一个适合您业务的云服务器,包括处理器、内存、存储、网络等组件,并根据您的需求进行购买。安装谷歌云服务器:根据您的操作系统和谷歌云服务提供商的文档,下载谷歌云服务器的安装程序和必要的软件包。配置云服务器:在安装程序上选择您的谷歌云服务器,并配置必要的组件,例如处理器、内存、存储、网络等。创建数据库:选择一个数据库来存储您的数据,包括表格、字段等。配置谷歌云服务器:根据您的需求配...
2023-10-27

私人云服务器搭建方法教程

私人云服务器搭建方法非常简单,以下是一个简单的步骤:确定需要使用什么类型的云服务:在决定使用云服务器之前,首先需要明确自己需要使用的是哪种类型的云服务。比如,如果需要使用存储服务,可以考虑使用亚马逊云服务或者Dropbox等公共云服务;如果需要使用虚拟主机服务,可以考虑选择AWS等云服务供应商;如果需要使用网站开发服务,可以选择GoogleCloud或MicrosoftAzure等云服务供应
2023-10-26

编程热搜

目录