我的编程空间,编程开发者的网络收藏夹
学习永远不晚

python中bs4解析和xpath解析的示例分析

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

python中bs4解析和xpath解析的示例分析

这篇文章给大家分享的是有关python中bs4解析和xpath解析的示例分析的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。

    bs4解析

    原理:

    实例化一个BeautifulSoup对象,并且将页面源码数据加载到该对象中

    通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取

    如何实例化BeautifulSoup对象:

    from bs4 import BeautifulSoup

    BeautifulSoup(参数一,参数二)

    参数一为文件描述符,参数二为解析器,一般为’lxml’

    一对象的实例化:

    将本地的html文档中的数据加载到该对象中

    fp = open( './test.html','r',encoding='utf-8')soup=BeautifulSoup(fp,'lxml')

    将互联网上获取的页面源码加载到该对象中

    page_text =response.textsoup=BeatifulSoup(page_text,'lxml')

    soup指初始化的BeautifulSoup对象

    用于数据解析的方法和属性:

    soup.tagName:返回的是文档中第一次出现的tagName对应的标签

    soup.find():

    (1).find( ‘tagName’):等同于soup.tagName

    (2).属性定位:soup.find(‘div’,class_/id/或者其他属性=‘song’)

    定位到< div class=“song”>/< div id=“song”>的标签下

    class如果没有加_则代表关键字

    soup.find_all(&lsquo;tagName&rsquo;):返回符合要求的所有标签(列表)

    soup对象:<div class="tang">    <ul>        <li><a href="http://www.baidu.com" rel="external nofollow"  title= "ging">清明时节雨纷纷,路上行人欲断魂,借问酒家何处有,牧童遥指杏花村</a></1i>        <li><a href="http://www.163.com" rel="external nofollow"  title="qin">秦时明月汉时关,万里长征人未还,但使龙城飞将在,不教胡马度阴山</a></1i>        <li><a href=" http://ww.126.com" rel="external nofollow" alt="qi ">歧王宅里寻常见,崔九堂前几度闻,正是江南好风景,落花时节又逢君</a></li>        <li><a href="http: //www.sina.com" rel="external nofollow"  class="du">杜甫</a></li>        <li><a href="http://www.dudu.com" rel="external nofollow"  class="du">杜牧</a></li>        <li><b>杜小月</b></li>        <li><i>度蜜月</i></li>        <li><a href="http://ww.hana.com”id=" rel="external nofollow" feng">凤凰台上凤凰游,凤去台空江自流,吴宫花草埋幽径,晋代衣冠成古丘</a></li>    </ul></div>

    select:

    - select(&lsquo;某种选择器(id,class,标签&hellip;选择器)&rsquo;),返回的是一个列表。

    标签什么都不加,class前面加. id前面加#

    层级选择器:

    >表示的是一个层级;空格表示的多个层级

         soup.select( '.tang > ul > li > a')      soup.select( '.tang >ul a')     结果为:[<a href="http://www.baidu.com" title= "ging">清明时节雨纷纷,路上行人欲断魂,借问酒家何处有,牧童遥指杏花村</a>,     <a href="http://www.163.com" title="qin">秦时明月汉时关,万里长征人未还,但使龙城飞将在,不教胡马度阴山</a>,     <a href=" http://ww.126.com"alt="qi ">歧王宅里寻常见,崔九堂前几度闻,正是江南好风景,落花时节又逢君</a>,     <a href="http: //www.sina.com" class="du">杜甫</a>,     <a href="http://www.dudu.com" class="du">杜牧</a>,    <a href="http://ww.hana.com”id="feng">凤凰台上凤凰游,凤去台空江自流,吴宫花草埋幽径,晋代衣冠成古丘</a>]

    获取标签之间的文本数据:

    -soup.a.text/string/get_text()

    -text/get_text():可以获取某一个标签中所有的文本内容

    -string:只可以获取该标签下面直系的文本内容

    获取标签中属性值:

    soup.a[&lsquo;属性值&rsquo;]

    print(soup.select( '.tang > ul > li > a') [0]['href'])结果:www.baidu.com

    xpath解析

    最常用且最便捷高效的一种解析方式。通用性。

    xpath解析原理:

    实例化一个etree的对象,且需要将被解析的页面源码数据加载到该对象中。

    2调用etree对象中的xpath方法结合着xpath表达式实现标签的定位和内容的捕获。

    实例化一个etree对象:

    from lxml import etree

    -1.将本地的html文档中的源码数据加载到etree对象中:

    etree.parse(filePath)

    -2.可以将从互联网上获取的源码数据加载到该对象中

    etree.HTML( 'page_text')

    xpath( &lsquo;xpath表达式&rsquo;)

    xpath表达式:(返回一个列表)

    -/:表示的是从根节点开始定位。表示的是一个层级。

    -//:表示的是多个层级。可以表示从任意位置开始定位。

    -属性定位://div[@class=&lsquo;song&rsquo;] tag[@attrname=&lsquo;attrvalue&rsquo;]

    -索引定位://div[@class=&lsquo;song&rsquo;]/p[3]

    索引从1开始的

    取文本:

    • /text()获取的是标签中直系的文本内容

    • //text(标签中非直系的文本内容(所有的文本内容)

    取属性:

    • /@attrName

    • eg:/img/@class="lazy" data-src

    • ./表示定位到当前位置(局部解析)

    多个xpath之间用|分割:

    • tree.xpath(&rsquo;//div[@class=&lsquo;song&rsquo;]/p[3] | //div[@class=&lsquo;song&rsquo;]&rsquo;)

    感谢各位的阅读!关于“python中bs4解析和xpath解析的示例分析”这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,让大家可以学到更多知识,如果觉得文章不错,可以把它分享出去让更多的人看到吧!

    免责声明:

    ① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

    ② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

    python中bs4解析和xpath解析的示例分析

    下载Word文档到电脑,方便收藏和打印~

    下载Word文档

    猜你喜欢

    python中bs4解析和xpath解析的示例分析

    这篇文章给大家分享的是有关python中bs4解析和xpath解析的示例分析的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。bs4解析原理:1.实例化一个BeautifulSoup对象,并且将页面源码数据加载到该对
    2023-06-29

    Python的xpath数据解析案例分析

    这篇“Python的xpath数据解析案例分析”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“Python的xpath数据解析
    2023-06-29

    Python爬虫必备之XPath解析库的示例分析

    小编给大家分享一下Python爬虫必备之XPath解析库的示例分析,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!一、简介XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进
    2023-06-15

    python页面解析的示例分析

    这篇文章主要介绍python页面解析的示例分析,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!页面解析对于页面解析最强大的当然是正则表达式,这个对于不同网站不同的使用者都不一样,就不用过多的说明。其次就是解析库了,常用
    2023-06-08

    python爬虫中xpath实例分析

    这篇文章主要介绍“python爬虫中xpath实例分析”,在日常操作中,相信很多人在python爬虫中xpath实例分析问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”python爬虫中xpath实例分析”的疑
    2023-06-29

    python列表解析式的示例分析

    这篇文章给大家分享的是有关python列表解析式的示例分析的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。列表解析式比如我们有一系列水果的名字,存放在fruit列表里,如果我们希望把列表的内容都改成大写,我们可以有
    2023-06-27

    Silverlight 4中XAML解析的示例分析

    这篇文章主要介绍Silverlight 4中XAML解析的示例分析,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!1. 控件内容直接显示相信大家还记得,在Silverlight 3版本中,控件的文本内容,通常都是使用一
    2023-06-17

    Python实战使用XPath采集数据示例解析

    这篇文章主要为大家介绍了Python实战之使用XPath采集数据实现示例解析,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪<BR>
    2023-05-16

    Spring注解解析之@ImportResource的示例分析

    这篇文章给大家分享的是有关Spring注解解析之@ImportResource的示例分析的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。一、ImportResource1.1 定义包和类首先定义一个不会被Compo
    2023-06-15

    python爬虫指南之xpath实例解析

    Python爬虫指南之XPath实例解析XPath是一种用于在XML文档中进行导航和查找元素的语言。在爬虫中,XPath可以用于解析网页的HTML结构,提取所需的数据。以下是一个使用XPath解析HTML结构的Python爬虫实例:```p
    2023-08-15

    JOSN解析库alibaba Fastjson的示例分析

    这篇文章将为大家详细讲解有关JOSN解析库alibaba Fastjson的示例分析,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。js的作用是什么1、能够嵌入动态文本于HTML页面。2、对浏览器事件做出响
    2023-06-14

    python中xpath解析原理是什么

    这篇文章给大家分享的是有关python中xpath解析原理是什么的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。XPath,全称XML Path Language,即XML路径语言,它是一门在XML文档中查找信息的
    2023-06-29

    python中zip的示例分析

    这篇文章主要介绍了python中zip的示例分析,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。zip压轴出场的也是很棒的一个模块。你曾经遇到过需要从两个列表中形成字典吗?ke
    2023-06-27

    python中xkcd的示例分析

    这篇文章将为大家详细讲解有关python中xkcd的示例分析,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。xkcd幽默是 Python 语言的一个关键特征,它是以英国喜剧小品剧Python飞行马戏团命名的
    2023-06-27

    编程热搜

    • Python 学习之路 - Python
      一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
      Python 学习之路 - Python
    • chatgpt的中文全称是什么
      chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
      chatgpt的中文全称是什么
    • C/C++中extern函数使用详解
    • C/C++可变参数的使用
      可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
      C/C++可变参数的使用
    • css样式文件该放在哪里
    • php中数组下标必须是连续的吗
    • Python 3 教程
      Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
      Python 3 教程
    • Python pip包管理
      一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
      Python pip包管理
    • ubuntu如何重新编译内核
    • 改善Java代码之慎用java动态编译

    目录