我的编程空间,编程开发者的网络收藏夹
学习永远不晚

怎么正确使用Scrapy自带的FilesPipeline

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

怎么正确使用Scrapy自带的FilesPipeline

这篇文章主要讲解了“怎么正确使用Scrapy自带的FilesPipeline”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“怎么正确使用Scrapy自带的FilesPipeline”吧!

Scrapy自带的  FilesPipeline和ImagesPipeline用来下载图片和文件非常方便,根据它的官方文档[1]说明,我们可以很容易地开启这两个  Pipeline。

如果只是要下载图片,那么用 FilesPipeline 和 ImagesPipeline 都可以,毕竟图片也是文件。但因为使用  ImagesPipeline 要单独安装第三方库 Pillow,所以我们以 FilesPipeline 为例来进行说明。

假设爬虫通过解析网页的源代码,获取到了一张图片,图片的地址为:https://kingname-1257411235.cos.ap-chengdu.myqcloud.com/640.gif  当然,png 、 jpg 、甚至 rar、pdf、zip 都可以。

为了使用 Scrapy 自带的 FilesPipeline来下载这张图片,我们需要做几步设置。

定义 items

首先定义任意一个 items,需要确保这个 items  里面,必须包含file_urls字段和files字段,除了这两个必备字段外,你还可以任意增加其他字段。


怎么正确使用Scrapy自带的FilesPipeline

启动FilesPipeline

在settings.py中,找到 ITEM_PIPELINES配置,如果它被注释了,那么就解除注释。然后添加如下的配置:

'scrapy.pipelines.files.FilesPipeline': 1

再添加一个配置项FILES_STORE,它的值是你想要保存图片的文件夹地址。

修改以后如下图所示:

怎么正确使用Scrapy自带的FilesPipeline

下载图片

接下来,就进入到我们具体的爬虫逻辑中了。在爬虫里面,你在任意一个 parse 函数中提取到了一张或者几张图片的URL 后,把它(们)以列表的形式放入到  item 里面的 file_urls 字段中。如下图所示。

怎么正确使用Scrapy自带的FilesPipeline

注意,此时files字段不需要设置任何的值。其他非必需字段就根据你的需求只有设置即可。

获取结果

由于我们设置了scrapy.pipelines.images.FilesPipeline的优先级为1,是最高优先级,所以它会比所有其他的 Pipeline  更先运行。于是,我们可以在后面的其他Pipeline 中,检查 item 的 files 字段,就会发现我们需要的图片地址已经在里面了。如下图所示:

怎么正确使用Scrapy自带的FilesPipeline

item 中的 files 字段变成了一个包含字典的列表。字典中有一项叫做path的  Key,它的值就是图片在电脑上的路径,例如full/7f471f6dbc08c2db39125b20b0471c3b21c58f3e.gif表示在images文件夹中的full文件夹中的7f471f6dbc08c2db39125b20b0471c3b21c58f3e.gif文件,如下图所示:

怎么正确使用Scrapy自带的FilesPipeline

文件名是该文件的 md5值,如果你想重命名,可以在后续的 pipeline 中,根据 path 的值找到文件,然后修改名字。

修改请求头

看到这里,大家会不会有一个疑问,在使用FilesPipeline的时候,Scrapy 会加上请求头吗?它会用哪一个请求头呢?

实际上,Scrapy 在使用  FilesPipeline和ImagesPipeline时,是不会设置请求头的。如果网站会监控请求图片或者文件的请求的请求头,那么就可以立刻发现这个请求是通过  Scrapy 发起的。

为了证明这一点,我们可以查看FilesPipeline的源代码:

怎么正确使用Scrapy自带的FilesPipeline

在  scrapy/pipelines/files.py文件中,可以看到,FilesPipeline是通过get_media_requests方法来构造对图片的请求对象的。这个请求对象没有设置任何的请求头。

上面的截图是老版本的 Scrapy 的源代码。新版本的源代码里面,get_media_requests可能是这样的:

def get_media_requests(self, item, info):     urls = ItemAdapter(item).get(self.files_urls_field, [])     return [Request(u) for u in urls]

为了手动加上请求头,我们可以自己写一个  pipeline,继承FilesPipeline但覆盖get_media_requests方法,如下图所示:

怎么正确使用Scrapy自带的FilesPipeline

注意,在实际使用中,你可能还要加上 Host 和 Referer。

然后修改settings.py中的ITEM_PIPELINES,指向我们自定义的这个pipeline:

怎么正确使用Scrapy自带的FilesPipeline

这样一来,FilesPipeline就能够正确加上请求头了。

感谢各位的阅读,以上就是“怎么正确使用Scrapy自带的FilesPipeline”的内容了,经过本文的学习后,相信大家对怎么正确使用Scrapy自带的FilesPipeline这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是编程网,小编将为大家推送更多相关知识点的文章,欢迎关注!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

怎么正确使用Scrapy自带的FilesPipeline

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

使用Scrapy自带的ImagesPip

ImagesPipeline是scrapy自带的类,用来处理图片(爬取时将图片下载到本地)用的。优势:将下载图片转换成通用的JPG和RGB格式避免重复下载缩略图生成图片大小过滤异步下载......工作流程:爬取一个Item,将图片的URLs
2023-01-30

python怎么正确使用yield

这篇文章主要介绍了python怎么正确使用yield,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。生成器如果在一个方法内,包含了 yield 关键字,那么这个函数就是一个「生
2023-06-15

Swift中的RegexBuilder怎么正确使用

本篇内容主要讲解“Swift中的RegexBuilder怎么正确使用”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Swift中的RegexBuilder怎么正确使用”吧!前言在我们日常的项目开发
2023-07-05

springboot中的redis怎么正确使用

这篇“springboot中的redis怎么正确使用”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“springboot中的r
2023-06-30

Git工具怎么正确使用

这篇文章主要介绍“Git工具怎么正确使用”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“Git工具怎么正确使用”文章能帮助大家解决问题。一、安装Git二、Git简介Git是一种多人协作的版本管理系统。
2023-06-29

怎么正确使用sed命令

本篇内容介绍了“怎么正确使用sed命令”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!sed是一种在线编辑器,它一次处理一行内容。处理时,把当
2023-06-28

module.exports和exports怎么正确使用

这篇文章主要讲解了“module.exports和exports怎么正确使用”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“module.exports和exports怎么正确使用”吧!mod
2023-07-05

java中println怎么正确使用

在Java中,`println`是一个用于输出的方法,用于在控制台中打印一行文本。它的正确使用方式如下:打印字符串:System.out.println("Hello, World!");打印变量的值:int num = 10;Sys
java中println怎么正确使用
2023-10-28

sql中comment怎么正确使用

在SQL中,可以使用注释来为代码提供说明或者备注。注释可以简短描述SQL查询的目的、功能或者其他相关信息,让其他开发人员能够更容易地理解代码。SQL中有两种类型的注释:单行注释和多行注释。单行注释:使用双连字号(–)来表示注释,后面的内容
sql中comment怎么正确使用
2024-04-09

怎么正确使用dotnet-*工具

本篇内容主要讲解“怎么正确使用dotnet-*工具”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“怎么正确使用dotnet-*工具”吧!安装因为我们现在都是容器化时代了,所以我们可以把这类工具全部
2023-06-22

oracle索引怎么正确使用

正确使用Oracle索引的基本原则如下:选择适当的列进行索引:选择经常用于查询和连接的列进行索引,特别是那些具有高选择性和频繁访问的列。避免过多的索引:过多的索引会增加数据插入、更新和删除的开销,并占用更多的存储空间。只选择最重要的列进行索
oracle索引怎么正确使用
2024-04-09

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录