我的编程空间,编程开发者的网络收藏夹
学习永远不晚

如何实现URL字段的解析

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

如何实现URL字段的解析

这期内容当中小编将会给大家带来有关如何实现URL字段的解析,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。

1.修改爬取的目标地址

我们知道如果想要爬取网站的数据需要在spiders文件中创建一个蜘蛛,创建后这个蜘蛛中会自动生成一个类,类名也是由蜘蛛名加Spider组成,如上一节中爬去csdn网站生成的:CsdnSpider类,这个类中的name也就是蜘蛛的名称,allowed_domains是允许爬取网站的域名,start_urls是需要爬取的目标网站的网址,如果需要更改爬取的目标页面,只需要修改start_urls就可以了;

import scrapyclass CsdnSpider(scrapy.Spider):    name = 'csdn'    allowed_domains = ['www.csdn.net']    start_urls = ['http://www.csdn.net/']    def parse(self, response):        pass

2.解析标题的超链接a标签的跳转地址和标题内容

  • 那我们继续用csdn的今天推荐作为爬取信息,首先需要在CsdnSpider类中的parse(self,response)方法中使用response对象来对css选择器获取到的a元素的href值进行解析,如response.css('h3 a::attr(href)').extract(),这样就可以得到一个url地址的列表;

import scrapyclass CsdnSpider(scrapy.Spider):    name = 'csdn'    allowed_domains = ['www.csdn.net']    start_urls = ['http://www.csdn.net/']    def parse(self, response):       urls = response.css('.company_list .company_name a::attr(href)').extract()       print(urls)
  • 接着我们循环得到的列表,拿到每一个a标签的url地址,然后使用Request请求,需要传递两个参数,一个是url用于告诉我们接下来解析哪个页面,可以通过parse.urljoin()方法拼接页面链接,另一个是callback回调函数。

这个回调函数是我们自己定义的,也会传递一个response对象,通过这个response对象对css选择器获取的元素进行解析,这样我们就可以拿到每个解析页面的标题内容了;

import scrapyfrom scrapy.http import Requestfrom urllib import parseclass CsdnSpider(scrapy.Spider):    name = 'csdn'    allowed_domains = ['www.csdn.net']    start_urls = ['http://www.csdn.net/']    def parse(self, response):       # 获取url       urls = response.css('.company_list .company_name a::attr(href)').extract()       # print(urls)       # 解析页面       for url in urls:           yield Request(url = parse.urljoin(response.url, url), callback=self.parse_analyse, dont_filter=True)    # 回调函数    def parse_analyse(self, response):        title = response.css('.company_list .company_name a::text').extract_first()        print(title)

3.Request对象的介绍

  • class scrapy.http.Request(url[, callback, method='GET', headers, body, cookies, meta, encoding='utf-8',priority=0, dont_filter=False, errback]),一个request对象代表一个HTTP请求,通常由Spider产生,经Downloader执行从而产生一个Response;

  • url:用于请求的URL;

  • callback:指定一个回调函数,该回调函数以这个request是的response作为第一个参数,如果未指定callback则默认使用spider的parse()方法;

  • method: HTTP请求的方法,默认为GET;

  • headers:请求的头部;

  • body:请求的正文,可以是bytes或者str;

  • cookies:请求携带的cookie;

  • meta:指定Request.meta属性的初始值,如果给了该参数,dict将会浅拷贝;

  • encoding:请求的编码, 默认为utf-8;

  • priority:优先级,优先级越高,越先下载;

  • dont_filter:指定该请求是否被 Scheduler过滤,该参数可以使request重复使用;

  • errback:处理异常的回调函数;

上述就是小编为大家分享的如何实现URL字段的解析了,如果刚好有类似的疑惑,不妨参照上述分析进行理解。如果想知道更多相关知识,欢迎关注编程网行业资讯频道。

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

如何实现URL字段的解析

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

如何实现URL字段的解析

这期内容当中小编将会给大家带来有关如何实现URL字段的解析,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。1.修改爬取的目标地址我们知道如果想要爬取网站的数据需要在spiders文件中创建一个蜘蛛,创建后这
2023-06-02

Django如何实现url反向解析

这篇文章给大家分享的是有关Django如何实现url反向解析的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。1、代码中URL可以出现的位置一个是在HTML模板中,一个是在视图函数中:1、模板【HTML】中(1) <
2023-06-22

php如何实现数组转url字符串

php实现数组转url字符串的方法:【$queryStr = http_build_query($data);echo query_str;】。
2020-09-19

php如何实现字段值相加

本篇内容介绍了“php如何实现字段值相加”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!php实现字段值相加的的方法:1、使用array_co
2023-06-22

CSS选择器如何实现字段

这篇文章主要介绍CSS选择器如何实现字段,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!根据上面所学的CSS基础语法知识,现在来实现字段的解析。首先还是解析标题。打开网页开发者工具,找到标题所对应的源代码。发现是在di
2023-06-08

json解析后如何列出未知字段

小伙伴们对Golang编程感兴趣吗?是否正在学习相关知识点?如果是,那么本文《json解析后如何列出未知字段》,就很适合你,本篇文章讲解的知识点主要包括。在之后的文章中也会多多分享相关知识点,希望对大家的知识积累有所帮助!问题内容假设我们有
json解析后如何列出未知字段
2024-04-04

如何实现Java中的static关键字解析

这期内容当中小编将会给大家带来有关如何实现Java中的static关键字解析,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。static关键字是很多朋友在编写代码和阅读代码时碰到的比较难以理解的一个关键字,
2023-06-03

MybatisPlus字段类型转换如何实现

本文小编为大家详细介绍“MybatisPlus字段类型转换如何实现”,内容详细,步骤清晰,细节处理妥当,希望这篇“MybatisPlus字段类型转换如何实现”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。resul
2023-07-05

mybatis如何实现特殊字段加密

这篇文章主要为大家展示了“mybatis如何实现特殊字段加密”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“mybatis如何实现特殊字段加密”这篇文章吧。一、背景在我们数据库中有些时候会保存一些
2023-06-29

实例解析package.json和最常见的scripts字段

日常开发中,现在的前端开发已经被三大框架取代,其中最主流的不过vue和react,而开发这些项目的时候不得不接触package.json这个文件,可你真的了解这个文件吗?今天给大家聊聊package.json和最常见的scripts字段,感兴趣的朋友一起看看吧
2023-05-14

如何解决MyBatis中Enum字段参数解析问题

小编给大家分享一下如何解决MyBatis中Enum字段参数解析问题,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!基础Class和TypeHandlerMyBati
2023-06-20

Go语言文档解析:reflect.FieldByName函数实现字段反射

Go语言是一门静态类型、编译型、并发的开源编程语言,由Google开发。它的设计目标是使得程序简单、高效和安全。在Go语言中,反射是一种强大的特性,它允许我们在运行时动态地根据类型信息获取和修改变量的值、类型和结构。在Go语言中,refle
Go语言文档解析:reflect.FieldByName函数实现字段反射
2023-11-03

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录