我的编程空间,编程开发者的网络收藏夹
学习永远不晚

如何使用Python进行多线程并发下载图片

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

如何使用Python进行多线程并发下载图片

这篇文章主要介绍“如何使用Python进行多线程并发下载图片”,在日常操作中,相信很多人在如何使用Python进行多线程并发下载图片问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”如何使用Python进行多线程并发下载图片”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!

最终效果

这就是我们最终要构建的效果。

如何使用Python进行多线程并发下载图片

如何使用Python进行多线程并发下载图片

安装依赖项

让我们安装每个人最喜欢的 requests 库。

pip install requests

现在,我们将看到一些用于下载单个 URL 并尝试自动查找图像名称以及如何使用重试的基本代码。

import requestsres = requests.get(img_url, stream=True)count = 1while res.status_code != 200 and count <= 5:    res = requests.get(img_url, stream=True)    print(f'Retry: {count} {img_url}')    count += 1

在这里,我们重试下载图像五次,以防失败。现在,让我们尝试自动找到图像的名称并保存它。

import more required libraryimport iofrom PIL import Image# lets try to find the image nameimage_name = str(img_url[(img_url.rfind('/')) + 1:])if '?' in image_name:    image_name = image_name[:image_name.find('?')]

解释

假设我们要下载的 URL 是:

instagram.fktm7-1.fna.fbcdn.net/vp...

好吧,这是一团糟。让我们分解一下代码对 URL 的作用。我们首先使用 rfind 找到最后一个正斜杠(/),然后选择之后的所有内容。这是结果:

65872070_1200425330158967_6201268309743367902_n.jpg?_nc_ht=instagram.fktm7–1.fna.fbcdn.net&_nc_cat=111

现在我们的第二部分找到一个 ?,然后只取它前面的任何东西。

这是我们最终的图像名称:

65872070_1200425330158967_6201268309743367902_n.jpg

这个结果非常好,适用于大多数用例。

现在我们已经下载了图像名称和图像,我们将保存它。

i = Image.open(io.BytesIO(res.content))i.save(image_name)

如果你在想,「我到底应该怎么使用上面的代码?」那么你的想法是正确的。这是一个漂亮的函数,我们在上面所做的一切都被扁平处理了。在这里,我们还测试了下载的类型是否为图像,以防找不到图像名称。

def image_downloader(img_url: str):    """    Input:    param: img_url  str (Image url)    Tries to download the image url and use name provided in headers. Else it randomly picks a name    """    print(f'Downloading: {img_url}')    res = requests.get(img_url, stream=True)    count = 1    while res.status_code != 200 and count <= 5:        res = requests.get(img_url, stream=True)        print(f'Retry: {count} {img_url}')        count += 1    # checking the type for image    if 'image' not in res.headers.get("content-type", ''):        print('ERROR: URL doesnot appear to be an image')        return False    # Trying to red image name from response headers    try:        image_name = str(img_url[(img_url.rfind('/')) + 1:])        if '?' in image_name:            image_name = image_name[:image_name.find('?')]    except:        image_name = str(random.randint(11111, 99999))+'.jpg'    i = Image.open(io.BytesIO(res.content))    download_location = 'cats'    i.save(download_location + '/'+image_name)    return f'Download complete: {img_url}'

现在,你可能会问:「这个人所说的多处理在哪里?」。

这很简单。我们将简单地定义我们的池并将我们的函数和图像 URL 传递给它。

results = ThreadPool(process).imap_unordered(image_downloader, images_url)for r in results:    print(r)

让我们把它放在一个函数中:

def run_downloader(process:int, images_url:list):    """    Inputs:        process: (int) number of process to run        images_url:(list) list of images url    """    print(f'MESSAGE: Running {process} process')    results = ThreadPool(process).imap_unordered(image_downloader, images_url)    for r in results:        print(r)

再一次,你可能会说,「这一切都很好,但我想立即开始下载我的 1000 张图像列表。我不想复制和粘贴所有这些代码并试图弄清楚如何合并所有内容。」

这是一个完整的脚本。它执行以下操作:

  • 以图像列表文本文件和进程号作为输入

  • 按照您想要的速度下载它们

  • 打印下载文件的总时间

  • 还有一些不错的函数可以帮助我们读取文件名并处理错误和其他东西

完整的脚本

# -*- coding: utf-8 -*-import ioimport randomimport shutilimport sysfrom multiprocessing.pool import ThreadPoolimport pathlibimport requestsfrom PIL import Imageimport timestart = time.time()def get_download_location():    try:        url_input = sys.argv[1]    except IndexError:        print('ERROR: Please provide the txt file\n$python image_downloader.py cats.txt')    name = url_input.split('.')[0]    pathlib.Path(name).mkdir(parents=True, exist_ok=True)    return namedef get_urls():    """    通过读取终端中作为参数提供的 txt 文件返回 url 列表    """    try:        url_input = sys.argv[1]    except IndexError:        print('ERROR: Please provide the txt file\n Example \n\n$python image_downloader.py dogs.txt \n\n')        sys.exit()    with open(url_input, 'r') as f:        images_url = f.read().splitlines()    print('{} Images detected'.format(len(images_url)))    return images_urldef image_downloader(img_url: str):    """    输入选项:    参数: img_url  str (Image url)    尝试下载图像 url 并使用标题中提供的名称。否则它会随机选择一个名字    """    print(f'Downloading: {img_url}')    res = requests.get(img_url, stream=True)    count = 1    while res.status_code != 200 and count <= 5:        res = requests.get(img_url, stream=True)        print(f'Retry: {count} {img_url}')        count += 1    # checking the type for image    if 'image' not in res.headers.get("content-type", ''):        print('ERROR: URL doesnot appear to be an image')        return False    # Trying to red image name from response headers    try:        image_name = str(img_url[(img_url.rfind('/')) + 1:])        if '?' in image_name:            image_name = image_name[:image_name.find('?')]    except:        image_name = str(random.randint(11111, 99999))+'.jpg'    i = Image.open(io.BytesIO(res.content))    download_location = get_download_location()    i.save(download_location + '/'+image_name)    return f'Download complete: {img_url}'def run_downloader(process:int, images_url:list):    """    输入项:        process: (int) number of process to run        images_url:(list) list of images url    """    print(f'MESSAGE: Running {process} process')    results = ThreadPool(process).imap_unordered(image_downloader, images_url)    for r in results:        print(r)try:    num_process = int(sys.argv[2])except:    num_process = 10images_url = get_urls()run_downloader(num_process, images_url)end = time.time()print('Time taken to download {}'.format(len(get_urls())))print(end - start)

将其保存到 Python 文件中,然后运行它。

python3 image_downloader.py cats.txt

这是 GitHub 存储库的链接。

用法

python3 image_downloader.py <filename_with_urls_seperated_by_newline.txt> <num_of_process>

这将读取文本文件中的所有 URL,并将它们下载到名称与文件名相同的文件夹中。

num_of_process 是可选的(默认情况下,它使用 10 个进程)。

例子

python3 image_downloader.py cats.txt

如何使用Python进行多线程并发下载图片

如何使用Python进行多线程并发下载图片

到此,关于“如何使用Python进行多线程并发下载图片”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注编程网网站,小编会继续努力为大家带来更多实用的文章!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

如何使用Python进行多线程并发下载图片

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

如何使用Python进行多线程并发下载图片

这篇文章主要介绍“如何使用Python进行多线程并发下载图片”,在日常操作中,相信很多人在如何使用Python进行多线程并发下载图片问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”如何使用Python进行多线程
2023-07-04

Python 多线程并发下载图片 保姆级教程

有时候,下载大量图像需要几个小时——让我们来解决这个问题我明白了——你已经厌倦了等待你的程序下载图像。有时我必须下载数千
2023-05-17

如何使用Python中的多线程进行任务并发执行

如何使用Python中的多线程进行任务并发执行多线程是一种常用的并发编程技术,可以提高程序的执行效率。在Python中,使用多线程可以实现任务的并发执行,从而加快程序的运行速度。本文将介绍如何使用Python中的多线程进行任务的并发执行,并
2023-10-22

如何在python中使用multiprocessing实现多进程并行计算

如何在python中使用multiprocessing实现多进程并行计算?很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。python是什么意思Python是一种跨
2023-06-06

如何使用Python爬虫实现自动下载图片

小编给大家分享一下如何使用Python爬虫实现自动下载图片,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!python的数据类型有哪些?python的数据类型:1. 数字类型,包括int(整型)、long(长整型)和floa
2023-06-14

如何使用Python中的异步IO进行高并发编程

如何使用Python中的异步IO进行高并发编程在当今互联网时代,高并发处理是许多系统设计的重要考虑因素之一。通过使用异步IO编程,我们可以有效地处理大量并发请求,提高系统的性能和响应速度。而Python作为一种高级编程语言,也提供了丰富的异
2023-10-27

Python 多线程与多进程:行业应用实例,探索并发编程的无限潜力

Python多线程和多进程是两种强大的并发编程模式,它们可以帮助我们充分利用多核CPU的计算能力,大幅提升程序性能。多线程和多进程在行业中有着广泛的应用,本文将通过几个实例来展示它们在实际场景中的应用,帮助读者深入理解和掌握这些并发编程技术。
Python 多线程与多进程:行业应用实例,探索并发编程的无限潜力
2024-02-24

JAVA中如何使用多线程并行请求数据

在Java中使用多线程并行请求数据可以使用Thread类或者Executor框架来实现。使用Thread类可以手动创建和管理线程,每个线程负责一个请求。例如:```javapublic class RequestThread extends
2023-09-21

linux中如何使用Python对图片进行批量命名

小编给大家分享一下linux中如何使用Python对图片进行批量命名,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!大家在进行机器学习训练时,为了方便管理不同种类的
2023-06-22

C#中如何使用多线程编程提高并发性能

C#中如何使用多线程编程提高并发性能随着计算机技术的飞速发展,现代软件系统对于并发性能的需求也越来越高。尤其是在处理大量并发请求、并行计算以及IO密集型操作时,单线程往往无法充分利用CPU和其他系统资源,导致性能瓶颈和响应时间延长。而使用多
2023-10-22

如何使用golang进行Select Channels Go并发式编程

在Go中,可以使用`select`语句来监听多个`channel`的操作,并选择第一个就绪的`channel`进行处理。以下是使用`select`语句进行并发编程的示例代码:```gopackage mainimport ("fmt""ti
2023-10-09

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录