Xpath元素选择器怎么在Scrapy中使用

2023-06-14 07:26

短信预约 -IT技能 免费直播动态提醒

这期内容当中小编将会给大家带来有关Xpath元素选择器怎么在Scrapy中使用，文章内容丰富且以专业的角度为大家分析和叙述，阅读完这篇文章希望大家可以有所收获。

1. 元素的多级定位与跳级定位

多级定位：依靠html中的多级元素逐步缩小范围

response.xpath('//table/tbody/tr/td')//如果知道元素所属的下标可以用下标选择response.xpath('//table/tbody/tr[1]/td')

跳级定位：符号“//”表示跳级定位，即对当前元素的所有层数的子元素（不仅是第一层子元素）进行查找，一般xpath的开头都是跳级定位

response.xpath('//span//table')

2. 依靠元素的属性定位

每个html元素都有很多属性，如id、class、title、href、text(href和text往往可以配合正则表达式）等，这些属性往往具有很强的特殊性，结合元素多级定位或跳级定位会更准确高效，下面举几个典型的例子，其他的举一反三

利用class定位

response.xpath('//td[@class="mc_content"]')

利用href配合正则表达式定位

response.xpath('//a[re:test(@href,"^\/index\.php\?m=News&a=details&id=1&NewsId=\d{1,4}")]')

利用text结合正则表达式定位

a=response.xpath('//a[re:test(text(),"\w{4}")]')

此外，xpath还有对于html元素操作的两个实用的函数（可以用正则表达式代替）——starts-with和contains；

a=response.xpath('//a[starts-with(@title,"注册时间")]')a=response.xpath('//a[contains(text(),"闻")]')

3. 提取元素或元素的属性值

首先是最基本的extract()函数，提取被定为的元素对象

a=response.xpath('//a[contains(text(),"闻")]').extract()//如果被定为的元素对象有多个，可以有用下标指定a=response.xpath('//a[contains(text(),"闻")]').extract()[1]

提取元素的属性

//提取texta=response.xpath('//a[contains(text(),"闻")]/text()').extract()//获取hrefa=response.xpath('//a[contains(text(),"闻")]/@href').extract()//获取namea=response.xpath('//a[contains(text(),"闻")]/@name').extract()

此时我们的正则表达式又闲不住了（scrapy自带的函数），可以对提取的元素进行选择

//对href中的部分字符串进行选择response.xpath('//a[@name="_l_p_n"]/@href').re('\/s.*?list\.htm')

在这里关于xpath的所有用法基本总结完毕，只是由于xpath是对静态元素进行匹配选择，对于javascript往往束手无策，这时不得不用一个自动化测试工具——selenium，可以实现各种动态事件和静态元素的选择，只是selenium往往比较吃内存，响应时间也比较慢，对于大型的爬虫任务尽量不要使用，毕竟有一些javascript元素是内嵌在网页代码中的，这时候结合万能的正则表达式，xpath往往能够实现。如下：

link = re.search("javascript:goToPage\('(.*?)'", value) //value为包含该段的字符串

上述就是小编为大家分享的Xpath元素选择器怎么在Scrapy中使用了，如果刚好有类似的疑惑，不妨参照上述分析进行理解。如果想知道更多相关知识，欢迎关注编程网行业资讯频道。

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

阅读原文内容投诉

Xpath元素选择器怎么在Scrapy中使用

下载Word文档到电脑，方便收藏和打印～

下载Word文档

Xpath元素选择器怎么在Scrapy中使用

1. 元素的多级定位与跳级定位

2. 依靠元素的属性定位

3. 提取元素或元素的属性值

Xpath元素选择器怎么在Scrapy中使用

相关文章

猜你喜欢

Xpath元素选择器怎么在Scrapy中使用

Scrapy元素选择器Xpath用法汇总

css元素选择器怎么使用

CSS子元素选择器怎么使用

Scrapy中怎么利用Xpath选择器从网页中采集目标数据

css元素选择器怎么用

jQuery元素选择器怎么用

css怎么使用选择器排除元素

html中元素/标签选择器怎么用

HTML子元素选择器怎么用

怎么使用CSS3中的结构伪类选择器和伪元素选择器

HTML中如何使用子元素选择器

css如何使用元素选择器

CSS元素选择器如何使用

HTML中什么时候使用子元素选择器

CSS结合元素选择器怎么用

怎么使用CSS选择所有子元素

CSS中子元素选择器的使用介绍

css3类选择器中结合元素选择器和多类选择器的使用案例

css之伪元素选择器如何使用

热门标签

编程热搜

编程资源站

目录

感谢您的提交，我们服务专员将在30分钟内给您回复