我的编程空间,编程开发者的网络收藏夹
学习永远不晚

Scrapy元素选择器Xpath用法汇总

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

Scrapy元素选择器Xpath用法汇总

 众所周知,在设计爬虫时,最麻烦的一步就是对网页元素进行分析,目前流行的网页元素获取的工具有BeautifulSoup,lxml等,而据我使用的体验而言,Scrapy的元素选择器Xpath(结合正则表达式)是其中较为出色的一种(个人认为最好啦,当然只能在Scrapy中使用)功能相对较全、使用较为方便,正因为它的丰富性,有时很多功能会忘记,所以在这里整理好记录下来,方便今后查阅使用。

1. 元素的多级定位与跳级定位

多级定位:依靠html中的多级元素逐步缩小范围


response.xpath('//table/tbody/tr/td')

//如果知道元素所属的下标可以用下标选择
response.xpath('//table/tbody/tr[1]/td')

跳级定位:符号“//”表示跳级定位,即对当前元素的所有层数的子元素(不仅是第一层子元素)进行查找,一般xpath的开头都是跳级定位


response.xpath('//span//table')

2. 依靠元素的属性定位

每个html元素都有很多属性,如id、class、title、href、text(href和text往往可以配合正则表达式)等,这些属性往往具有很强的特殊性,结合元素多级定位或跳级定位会更准确高效,下面举几个典型的例子,其他的举一反三

利用class定位


response.xpath('//td[@class="mc_content"]')

利用href配合正则表达式定位


response.xpath('//a[re:test(@href,"^\/index\.php\?m=News&a=details&id=1&NewsId=\d{1,4}")]')

利用text结合正则表达式定位


a=response.xpath('//a[re:test(text(),"\w{4}")]')

此外,xpath还有对于html元素操作的两个实用的函数(可以用正则表达式代替)——starts-with和contains;


a=response.xpath('//a[starts-with(@title,"注册时间")]')

a=response.xpath('//a[contains(text(),"闻")]')

3. 提取元素或元素的属性值

首先是最基本的extract()函数,提取被定为的元素对象


a=response.xpath('//a[contains(text(),"闻")]').extract()

//如果被定为的元素对象有多个,可以有用下标指定
a=response.xpath('//a[contains(text(),"闻")]').extract()[1]

提取元素的属性


//提取text
a=response.xpath('//a[contains(text(),"闻")]/text()').extract()

//获取href
a=response.xpath('//a[contains(text(),"闻")]/@href').extract()

//获取name
a=response.xpath('//a[contains(text(),"闻")]/@name').extract()

此时我们的正则表达式又闲不住了(scrapy自带的函数),可以对提取的元素进行选择


//对href中的部分字符串进行选择
response.xpath('//a[@name="_l_p_n"]/@href').re('\/s.*?list\.htm')

在这里关于xpath的所有用法基本总结完毕,只是由于xpath是对静态元素进行匹配选择,对于javascript往往束手无策,这时不得不用一个自动化测试工具——selenium,可以实现各种动态事件和静态元素的选择,只是selenium往往比较吃内存,响应时间也比较慢,对于大型的爬虫任务尽量不要使用,毕竟有一些javascript元素是内嵌在网页代码中的,这时候结合万能的正则表达式,xpath往往能够实现。如下:


link = re.search("javascript:goToPage\('(.*?)'", value) //value为包含该段的字符串

到此这篇关于Scrapy元素选择器Xpath用法汇总的文章就介绍到这了,更多相关Scrapy元素选择器Xpath 内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

Scrapy元素选择器Xpath用法汇总

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

Xpath元素选择器怎么在Scrapy中使用

这期内容当中小编将会给大家带来有关Xpath元素选择器怎么在Scrapy中使用,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。1. 元素的多级定位与跳级定位多级定位:依靠html中的多级元素逐步缩小范围re
2023-06-14

基于android背景选择器selector的用法汇总

一.创建xml文件,位置:drawable/xxx.xml,同目录下记得要放相关图片 代码如下:2022-06-06

css元素选择器怎么使用

css 元素选择器是一项用于匹配和选择元素的模式,基于元素的特定属性,如类型、类或 id。不同的选择器类型包括:类型选择器,类选择器,id 选择器,后代选择器和通用选择器。通过使用这些选择器,您可以为特定类型的元素设置样式,创建有针对性的设
css元素选择器怎么使用
2024-05-21

css选择第几个子元素用哪个选择器

这篇文章给大家分享的是有关css选择第几个子元素用哪个选择器的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。在css中,想要选择指定元素中第几个子元素,可以使用“:nth-child()”选择器。“:nth-chi
2023-06-15

使用:only-child伪类选择器选择父元素只有一个子元素的样式

使用:only-child伪类选择器选择父元素只有一个子元素的样式CSS是前端开发中必不可少的一部分,它为网页提供了丰富的样式,让我们的页面更加美观和易读。其中,伪类选择器是CSS中非常有用的一种技术,它可以选择不同的元素和状态进行样式设置
使用:only-child伪类选择器选择父元素只有一个子元素的样式
2023-11-20

CSS样式设计中的元素选择器的用法

元素选择器在CSS样式设计中的应用在CSS样式设计中,元素选择器是最常用的一种选择器。它可以用来选中HTML文档中的特定元素,并为其应用样式。元素选择器非常灵活,在网页设计中起到了至关重要的作用。本文将详细介绍元素选择器的应用,包括基本的
CSS样式设计中的元素选择器的用法
2024-01-15

html中元素/标签选择器怎么用

这篇文章将为大家详细讲解有关html中元素/标签选择器怎么用,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。元素/标签选择器h2,h3,h4,h5,h6,h7 { font-size:100%; font-
2023-06-27

css怎么使用选择器排除元素

CSS是前端开发中的重要技能之一,除了基本的选取元素、修改样式外,选择排除也是CSS中一个非常重要的知识点。本文将为大家讲解CSS中的选择排除,并提供实际案例以供参考。## 选择器介绍在学习选择排除之前,我们先来了解一下CSS选择器的基础知识。CSS选择器是用来选择HTML元素的。在CSS中,有多种选择器,如基本选择器、层次选择器、伪类选择器等,这些选择器都有不同的用途和语法。
2023-05-14

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录