python爬虫之异常捕获及标签过滤详解

2024-04-02 19:55

短信预约 -IT技能 免费直播动态提醒

增加异常捕获，更容易现问题的解决方向


import ssl
import urllib.request
from bs4 import BeautifulSoup
from urllib.error import HTTPError, URLError
 
 
def get_data(url):
    headers = {"user-agent":
                   "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36"
               }
    ssl._create_default_https_context = ssl._create_unverified_context
 
    """
    urlopen处增加两个异常捕获：
            1、如果页面出现错误或者服务器不存在时，会抛HTTP错误代码
            2、如果url写错了或者是链接打不开时，会抛URLError错误
    """
    try:
        url_obj = urllib.request.Request(url, headers=headers)
        response = urllib.request.urlopen(url_obj)
        html = response.read().decode('utf8')
    except (HTTPError, URLError)as e:
        raise e
 
    """
    BeautifulSoup处增加异常捕获是因为BeautifulSoup对象中有时候标签实际不存在时，会返回None值；
    因为不知道，所以调用了就会导致抛出AttributeError: 'NoneType' object has no xxxxxxx。
    """
    try:
        bs = BeautifulSoup(html, "html.parser")
        results = bs.body 
    except AttributeError as e:
        return None
 
    return results
 
 
if __name__ == '__main__':
    print(get_data("https://movie.douban.com/chart"))

解析html，更好的实现数据展示效果

get_text()：获取文本信息


# 此处代码同上面打开url代码一致，故此处省略......
 
html = response.read().decode('utf8')
bs = BeautifulSoup(html, "html.parser")
data = bs.find('span', {'class': 'pl'})
print(f'电影评价数：{data}')
print(f'电影评价数：{data.get_text()}')

运行后的结果显示如下：


电影评价数：<span class="pl">(38054人评价)</span>
电影评价数：(38054人评价)

find() 方法是过滤HTML标签，查找需要的单个标签

实际find方法封装是调用了正则find_all方法，把find_all中的limt参数传1，获取单个标签

1.name：可直接理解为标签元素

2.attrs：字典格式，放属性和属性值 {"class": "indent"}

3.recursive：递归参数，布尔值，为真时递归查询子标签

4.text：标签的文本内容匹配 , 是标签的文本，标签的文本

find_all() 方法是过滤HTML标签，查找需要的标签组

使用方法适合find一样的，无非就是多了个limit参数（筛选数据)

必须注意的小知识点：


#   下面两种写法，实际是一样的功能，都是查询id为text的属性值
bs.find_all(id="text")
bs.find_all(' ', {"id": "text"})


#   如果是class的就不能class="x x x"了，因为class是python中类的关键字
bs.find_all(class_="text")
bs.find_all(' ', {"class": "text"})

到此这篇关于python爬虫之异常捕获及标签过滤详解的文章就介绍到这了,更多相关python异常捕获及标签过滤内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网！

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

阅读原文内容投诉

python爬虫之异常捕获及标签过滤详解

下载Word文档到电脑，方便收藏和打印～

下载Word文档

python爬虫之异常捕获及标签过滤详解

python爬虫之异常捕获及标签过滤详解

相关文章

猜你喜欢

python爬虫之异常捕获及标签过滤详解

python爬虫之异常捕获及标签过滤的示例分析

热门标签

编程热搜

Python 学习之路 - Python

chatgpt的中文全称是什么

C/C++中extern函数使用详解

C/C++可变参数的使用

css样式文件该放在哪里

php中数组下标必须是连续的吗

Python 3 教程

Python pip包管理

ubuntu如何重新编译内核

改善Java代码之慎用java动态编译

编程资源站

2021年下半年软考高级信息系统项目管理师高频考点精选资料

2021下半年软考高级信息系统技术知识点记忆口诀精选资料

2021下半年软考《信息系统项目管理师》考试真题及答案精选资料

2021下半年软考高级考试备考攻略精选资料

2021年软考高级《信息系统项目管理师》巩固练习题汇总精选资料

2021下半年软考高级信息系统项目管理师30个易考知识点汇总精选资料

2021下半年软考高级知识点这样记，还担心记不住吗精选资料

2021年下半年软考高级考试重点汇总精选资料

2021下半年软考高级信息系统项目管理师计算公式汇总精选资料

2021年下半年软考高级《信息系统项目管理师》模拟试题精选资料

信息系统项目管理师选择题每日一练（2024）历年试题

2023年下半年信息系统项目管理师综合知识真题演练历年试题

目录

python爬虫之异常捕获及标签过滤详解

python爬虫之异常捕获及标签过滤详解

相关文章

猜你喜欢

python爬虫之异常捕获及标签过滤详解

python爬虫之异常捕获及标签过滤的示例分析

热门标签

编程热搜

编程资源站

目录

感谢您的提交，我们服务专员将在30分钟内给您回复