我的编程空间,编程开发者的网络收藏夹
学习永远不晚

Python爬虫Xpath定位数据的两种方法

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

Python爬虫Xpath定位数据的两种方法

方法一:直接右键,将文章路径复制下来点击Copy full Xpath

使用selenium+lxml中的etree进行配合使用,使用etree解析html网页

import requests
from lxml import etree
import time
import socket
import csv
from selenium import webdriver
from configparser import ConfigParser
from selenium.webdriver import Chrome
from selenium.webdriver import ChromeOptions
#禁止图片和css加载
chrome_options = webdriver.ChromeOptions()
prefs = {"profile.managed_default_content_settings.images": 2}
chrome_options.add_experimental_option("prefs", prefs)
option = ChromeOptions()
option.add_experimental_option('excludeSwitches', ['enable-automation'])
# 如果想加载图片,就把下面第二句话改第一句话,删掉上面的“禁止图片和css加载”部分
# wb = Chrome(options=option)
wb=webdriver.Chrome(options=chrome_options)
#最大化窗口、输入网址、等待至网页加载完成(防止元素还没加载出来就开始爬了这样自然爬不到数据。如果一直加载不出就等10秒,加载好了就立刻结束等待)
wb.maximize_window()
wb.get("https://www.tianyancha.com/")
wb.implicitly_wait(5)

然后获取网页数据,这里表明哪怕后面出错了,仍然可以延续wb的位置继续控制浏览器

data = wb.page_source
time.sleep(3)
data = wb.page_source
time.sleep(3)
page_all.append(data)
html = etree.HTML(data)
company = html.xpath('/html/body/div/div/div[2]/div/div[1]/div[1]/div[3]/div[1]/div[1]/div[1]/h1/text()')
print(company )

在这里插入图片描述

方法二:使用@制定标签属性,搜索指定位置

这样的好处就是,对于批量处理的网页,有的标签位置不在同一个地方,那么我们就是不使用全Xpath路径,而使用相对路径,用@制定某种属性的标签,下载相关数据

"//div[@class='mainArea']/ul/li"

使用//div[@class=‘mainArea’]的意思是:从根部(//)查找 class值为 mainArea的Node.

所以,那么就很简单了 //某元素[@class=‘CLASS值’]

大家可以按照这个公式来查找 class的元素了。

剩下的 /ul/li 表示的是,继续查找 class='mainArea’的div包括的ul元素下面的li 节点集合。

到此这篇关于Python爬虫Xpath定位数据的方法的文章就介绍到这了,更多相关Python爬虫Xpath定位数据内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

Python爬虫Xpath定位数据的两种方法

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

Python爬虫的两套解析方法和四种爬虫实现

【本文转载自微信公众号:数据科学家养成记,作者:louwill,转载授权请联系原作者】 对于大多数朋友而言,爬虫绝对是学习python的最好的起手和入门方式。因为爬虫思维模式固定,编程模式也相对简单,一般在细节处理上积累一些经验都可以成功入
2023-06-02

Python爬虫网页元素定位的方法

这篇文章主要介绍“Python爬虫网页元素定位的方法”,在日常操作中,相信很多人在Python爬虫网页元素定位的方法问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”Python爬虫网页元素定位的方法”的疑惑有所
2023-06-30

python爬虫获取数据的方法是什么

Python爬虫获取数据的方法有以下几种:1. 使用第三方库:Python有很多强大的第三方库,如Requests、BeautifulSoup、Scrapy等,可以用来实现爬虫功能。使用这些库可以发送HTTP请求、解析HTML页面、抓取数据
2023-10-19

python保留两位小数的3种方法实例

保留小数位是我们经常会碰到的问题,尤其是刷题过程中,下面这篇文章主要给大家介绍了关于python保留两位小数的3种方法,文中通过示例代码介绍的非常详细,需要的朋友可以参考下
2022-12-26

absolute定位css元素居中的两种方法

有两种方法可以使绝对定位的CSS元素居中:1. 使用transform属性:可以使用CSS的transform属性来将绝对定位的元素居中。可以通过设置元素的左右和顶部和底部的偏移值为50%,并使用transform属性的translate(
2023-09-14

Python股票数据定向爬虫是怎么样的

Python股票数据定向爬虫是怎么样的,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。功能简介目标: 获取上交所和深交所所有股票的名称和交易信息。输出: 保存到文件中。技术路线:
2023-06-17

Python爬虫数据的分类及json数据用法示例

小编给大家分享一下Python爬虫数据的分类及json数据用法示例,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!数据的结构化分类 一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值。内容
2023-06-14

MySQL 两种恢复数据的方法

一 前言 前一段时间接二连三的出现开发人员在测试环境和生产误操作导致数据库误删除/更新,对DBA而言,回滚数据着实是一件头疼的事情,凡涉及到恢复线上数据必然对应用带来一定的影响。大多数情况是开发误操作delete数据,update多数行,根
2022-05-29

python遍历数组的两种方法

python遍历数组的两种方法第一种,最常用的,通过for in遍历数组[cpp] view plain copycolours = ["red","green","blue"]  for colour in colours:      p
2023-01-31

爬虫解析提取数据的方法有哪些

本篇文章为大家展示了爬虫解析提取数据的方法有哪些,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。 一、分析网页以经典的爬取豆瓣电影 Top250 信息为例。每条电影信息在 ol class 为 gri
2023-06-15

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录