位置：首页-资讯-后端开发

Python爬虫必备之XPath解析库

2022-06-02 22:35

短信预约 信息系统项目管理师 报名、考试、查分时间动态提醒

一、简介

XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素，并且 XQuery 和 XPointer 都构建于 XPath 表达之上。

Xpath解析库介绍：数据解析的过程中使用过正则表达式, 但正则表达式想要进准匹配难度较高, 一旦正则表达式书写错误, 匹配的数据也会出错。

网页由三部分组成: HTML, Css, JavaScript, HTML页面标签存在层级关系, 即DOM树, 在获取目标数据时可以根据网页层次关系定位标签, 在获取标签的文本或属性。

二、安装


pip install lxml

三、节点

3.1 选取节点

XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。下面列出了最有用的路径表达式：

表达式	描述
nodename	选取此节点的所有子节点。
/	从根节点选取。
//	从匹配选择的当前节点选择文档中的节点，而不考虑它们的位置。
…	选取当前节点的父节点。
.	选取当前节点。
@	选取属性。

3.2 选取未知节点

XPath 通配符可用来选取未知的 XML 元素。

通配符	描述
*	匹配任何元素节点。
@*	匹配任何属性节点。
node()	匹配任何类型的节点。

在下面的表格中，我们列出了一些路径表达式，以及这些表达式的结果：

路径表达式	结果
/bookstorea/div[@class="content"]/span/text()') # 视频 video_list = tree.xpath('//*/video[@controls="controls"]/source/@class="lazy" data-src') index = 0 for i in video_list: # 获取视频二进制流 video_content = requests.get(url= 'https:' + i,headers=headers).content # 标题 title_1 = content[0].strip('\n') # 将视频二进制写入文件 with open(f'Video/{title_1}.mp4','wb') as f: f.write(video_content) index += 1 到此这篇关于Python爬虫必备之XPath解析库的文章就介绍到这了,更多相关XPath解析库内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！免责声明： ① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。 ② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341 XPath解析库的使用 Python Xpath 阅读原文内容投诉 Python爬虫必备之XPath解析库下载Word文档到电脑，方便收藏和打印～下载Word文档相关文章江西软考成绩查询入口官网2024下半年江西软考成绩查询软考中项成绩多久可查？2024下半年软考中项成绩查询时间软考初级多少分有证书？低于45分能拿证吗？软考高级多少分有证书？低于45分能拿证吗？软考多少分有证书？低于45分能拿证吗？网络管理员成绩多久可查？2024下半年网络管理员成绩查询时间倒计时4天！软考机考这些应试技巧，用好能省不少时间！ 2025年北京软考中级科目有哪些信息系统运行管理员成绩多久可查？2024下半年多媒体应用设计师成绩多久可查？2024下半年多媒体应用设计师成绩查询时间猜你喜欢 Python爬虫必备之XPath解析库目录一、简介二、安装三、节点3.1 选取节点3.2 选取未知节点3.3 节点关系四、XPath实例一、简介 XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C 2022-06-02 Python爬虫必备之XPath解析库的示例分析小编给大家分享一下Python爬虫必备之XPath解析库的示例分析，希望大家阅读完这篇文章之后都有所收获，下面让我们一起去探讨吧！一、简介XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进 2023-06-15 Python爬虫必备之Xpath简介及实例讲解 2024-04-02 Python爬虫之必备chardet库一、chardet库的安装与介绍玩儿过爬虫的朋友应该知道，在爬取不同的网页时，返回结果会出现乱码的情况。比如，在爬取某个中文网页的时候，有的页面使用GBK/GB2312，有的使用UTF8，如果你需要去爬一些页面，知道网页编码很重要的。虽 2022-06-02 Python爬虫实战之xpath解析 2023-09-23 python爬虫指南之xpath实例解析 Python爬虫指南之XPath实例解析XPath是一种用于在XML文档中进行导航和查找元素的语言。在爬虫中，XPath可以用于解析网页的HTML结构，提取所需的数据。以下是一个使用XPath解析HTML结构的Python爬虫实例：```p 2023-08-15 【Python爬虫】数据解析之bs4解析和xpath解析 2023-09-06 python爬虫教程之bs4解析和xpath解析详解 2024-04-02 python怎么爬虫lxml库解析xpath网页这篇文章主要介绍“python怎么爬虫lxml库解析xpath网页”，在日常操作中，相信很多人在python怎么爬虫lxml库解析xpath网页问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”python怎么爬 2023-06-30 python爬虫指南之xpath实例解析(附实战) 2024-04-02 python爬虫lxml库解析xpath网页过程示例 2024-04-02 python网络爬虫精解之XPath的使用说明 2024-04-02 python爬虫之解析库正则表达式上次说到了requests库的获取,然而这只是开始,你获取了网页的源代码,但是这并不是我们的目的,我们的目的是解析链接里面的信息,比如各种属性 @href @class span 抑或是p节点里面的文本内容,但是我们需要一种工具来帮我 2023-01-30 Python爬虫之urllib库详解 2024-04-02 python爬虫之bs4数据解析一、实现数据解析因为正则表达式本身有难度，所以在这里为大家介绍一下 bs4 实现数据解析。除此之外还有 xpath 解析。因为 xpath 不仅可以在 python 中使用，所以 bs4 和正则解析一样，仅仅是简单地写两个案例（爬取可翻 2022-06-02 Python爬虫笔记3-解析库Xpat 当爬取到Html数据后，可以用正则对数据进行提取，但有时候正则表达式编写起来不方便，而且万一写错了，可能导致匹配失败。这时候就需要借助其他解析工具了。XML引入什么是XML？XML 指可扩展标记语言（EXtensible Markup La 2023-01-31 Python爬虫之解析HTML页面详解本文介绍了Python中用于解析HTML页面的重要工具之一——BeautifulSoup库，详细讲解了BeautifulSoup库的基本使用方法、标签选择器、CSS选择器、正则表达式、遍历文档树等内容，并结合实例代码展示了BeautifulSoup库的应用场景 2023-05-18 Python爬虫进阶之Beautiful Soup库详解一、Beautiful Soup库简介 BeautifulSoup4 是一个 HTML/XML 的解析器，主要的功能是解析和提取 HTML/XML 的数据。和 lxml 库一样。 lxml 只会局部遍历，而 BeautifulSoup4 是 2022-06-02 python爬虫之requests库的使用详解 2024-04-02 python爬虫之三：解析网络报文xml 本节主要是讲解在项目中怎么解析获取的xml报文并获取相关字段。 xml解析第三方库学习地址：http://www.runoob.com/python/python-xml.htmlxml文件如下： 2023-01-31 热门标签 Linux(148)PHP(127)Java(102)正则表达式(101)JavaScript(69)最佳实践(67)jQuery(44)MySQL(39)Docker(37)C语言(36)性能优化(34)Python(34)XML(28)string(27)第三方库(23)回调函数(23)ZIP(22)数组(22)可扩展性(22)字符串比较(21)find(20)RPM(20)Go(20)grep(19)ASP.NETCore(19)XML解析器(19)事件(19)事件处理程序(19)StringBuilder(18)Nginx(18) 编程热搜 Python 学习之路 - Python 一、安装Python34Windows在Python官网（https://www.python.org/downloads/）下载安装包并安装。Python的默认安装路径是：C:\Python34配置环境变量：【右键计算机】--》【属性】- chatgpt的中文全称是什么 chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型，它能够通过学习和理解人类的语言来进行对话，还能根据聊天的上下文进行互动，并协助人类完成一系列 C/C++中extern函数使用详解 C/C++可变参数的使用可变参数的使用方法远远不止以下几种，不过在C,C++中使用可变参数时要小心，在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少，否则会产生访问越界，运气不好的话还会导致程序崩溃 css样式文件该放在哪里 php中数组下标必须是连续的吗 Python 3 教程 Python 3 教程 Python 的 3.0 版本，常被称为 Python 3000，或简称 Py3k。相对于 Python 的早期版本，这是一个较大的升级。为了不带入过多的累赘，Python 3.0 在设计的时候没有考虑向下兼容。 Python Python pip包管理一、前言在Python中，安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具： easy_install 和 pip ，目前官方推荐使用 pip。 ubuntu如何重新编译内核改善Java代码之慎用java动态编译查看更多编程资源站资料下载历年试题 2021年下半年软考高级信息系统项目管理师高频考点精选资料 2021下半年软考高级信息系统技术知识点记忆口诀精选资料 2021下半年软考《信息系统项目管理师》考试真题及答案精选资料 2021下半年软考高级考试备考攻略精选资料 2021年软考高级《信息系统项目管理师》巩固练习题汇总精选资料 2021下半年软考高级信息系统项目管理师30个易考知识点汇总精选资料 2021下半年软考高级知识点这样记，还担心记不住吗精选资料 2021年下半年软考高级考试重点汇总精选资料 2021下半年软考高级信息系统项目管理师计算公式汇总精选资料 2021年下半年软考高级《信息系统项目管理师》模拟试题精选资料查看更多信息系统项目管理师选择题每日一练（2024）历年试题 2023年下半年信息系统项目管理师综合知识真题演练历年试题查看更多目录本网页已闲置超过3分钟，按键盘任意键或点击空白处，即可回到网页最新资讯更多友情链接编程网反馈我要反馈返回顶部留言反馈感谢您的提交，我们服务专员将在30分钟内给您回复

路径表达式

结果

/bookstorea/div[@class="content"]/span/text()') # 视频 video_list = tree.xpath('//*/video[@controls="controls"]/source/@class="lazy" data-src') index = 0 for i in video_list: # 获取视频二进制流 video_content = requests.get(url= 'https:' + i,headers=headers).content # 标题 title_1 = content[0].strip('\n') # 将视频二进制写入文件 with open(f'Video/{title_1}.mp4','wb') as f: f.write(video_content) index += 1

到此这篇关于Python爬虫必备之XPath解析库的文章就介绍到这了,更多相关XPath解析库内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

XPath解析库的使用 Python Xpath

阅读原文内容投诉