我的编程空间,编程开发者的网络收藏夹
学习永远不晚

如何在Pytorch中使用Dataset和DataLoader读取数据

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

如何在Pytorch中使用Dataset和DataLoader读取数据

本篇文章给大家分享的是有关如何在Pytorch中使用Dataset和DataLoader读取数据,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。

一、前言

确保安装

  • scikit-image

  • numpy

二、Dataset

一个例子:

# 导入需要的包import torchimport torch.utils.data.dataset as Datasetimport numpy as np # 编造数据Data = np.asarray([[1, 2], [3, 4],[5, 6], [7, 8]])Label = np.asarray([[0], [1], [0], [2]])# 数据[1,2],对应的标签是[0],数据[3,4],对应的标签是[1]  #创建子类class subDataset(Dataset.Dataset):    #初始化,定义数据内容和标签    def __init__(self, Data, Label):        self.Data = Data        self.Label = Label    #返回数据集大小    def __len__(self):        return len(self.Data)    #得到数据内容和标签    def __getitem__(self, index):        data = torch.Tensor(self.Data[index])        label = torch.IntTensor(self.Label[index])        return data, label # 主函数if __name__ == '__main__':    dataset = subDataset(Data, Label)    print(dataset)    print('dataset大小为:', dataset.__len__())    print(dataset.__getitem__(0))    print(dataset[0])

 输出的结果

如何在Pytorch中使用Dataset和DataLoader读取数据

我们有了对Dataset的一个整体的把握,再来分析里面的细节:

#创建子类class subDataset(Dataset.Dataset):

创建子类时,继承的时Dataset.Dataset,不是一个Dataset。因为Dataset是module模块,不是class类,所以需要调用module里的class才行,因此是Dataset.Dataset!

lengetitem这两个函数,前者给出数据集的大小**,后者是用于查找数据和标签。是最重要的两个函数,我们后续如果要对数据做一些操作基本上都是再这两个函数的基础上进行。

三、DatasetLoader

DataLoader(dataset,           batch_size=1,           shuffle=False,           sampler=None,           batch_sampler=None,           num_works=0,           clollate_fn=None,           pin_memory=False,           drop_last=False,           timeout=0,           worker_init_fn=None,           multiprocessing_context=None)

功能:构建可迭代的数据装载器;
dataset:Dataset类,决定数据从哪里读取及如何读取;数据集的路径
batchsize:批大小;
num_works:是否多进程读取数据;只对于CPU
shuffle:每个epoch是否打乱;
drop_last:当样本数不能被batchsize整除时,是否舍弃最后一批数据;
Epoch:所有训练样本都已输入到模型中,称为一个Epoch;
Iteration:一批样本输入到模型中,称之为一个Iteration;
Batchsize:批大小,决定一个Epoch中有多少个Iteration;

还是举一个实例:

import torchimport torch.utils.data.dataset as Datasetimport torch.utils.data.dataloader as DataLoaderimport numpy as np Data = np.asarray([[1, 2], [3, 4],[5, 6], [7, 8]])Label = np.asarray([[0], [1], [0], [2]])#创建子类class subDataset(Dataset.Dataset):    #初始化,定义数据内容和标签    def __init__(self, Data, Label):        self.Data = Data        self.Label = Label    #返回数据集大小    def __len__(self):        return len(self.Data)    #得到数据内容和标签    def __getitem__(self, index):        data = torch.Tensor(self.Data[index])        label = torch.IntTensor(self.Label[index])        return data, label if __name__ == '__main__':    dataset = subDataset(Data, Label)    print(dataset)    print('dataset大小为:', dataset.__len__())    print(dataset.__getitem__(0))    print(dataset[0])     #创建DataLoader迭代器,相当于我们要先定义好前面说的Dataset,然后再用Dataloader来对数据进行一些操作,比如是否需要打乱,则shuffle=True,是否需要多个进程读取数据num_workers=4,就是四个进程     dataloader = DataLoader.DataLoader(dataset,batch_size= 2, shuffle = False, num_workers= 4)    for i, item in enumerate(dataloader): #可以用enumerate来提取出里面的数据        print('i:', i)        data, label = item #数据是一个元组        print('data:', data)        print('label:', label)

四、将Dataset数据和标签放在GPU上(代码执行顺序出错则会有bug)

这部分可以直接去看博客:Dataset和DataLoader

总结下来时有两种方法解决

如果在创建Dataset的类时,定义__getitem__方法的时候,将数据转变为GPU类型。则需要将Dataloader里面的参数num_workers设置为0,因为这个参数是对于CPU而言的。如果数据改成了GPU,则只能单进程。如果是在Dataloader的部分,先多个子进程读取,再转变为GPU,则num_wokers不用修改。就是上述__getitem__部分的代码,移到Dataloader部分。

不过一般来讲,数据集和标签不会像我们上述编辑的那么简单。一般再kaggle上的标签都是存在CSV这种文件中。需要pandas的配合。

这个进阶可以看:WRITING CUSTOM DATASETS, DATALOADERS AND TRANSFORMS,他是用人脸图片作为数据和人脸特征点作为标签。

pytorch的优点

1.PyTorch是相当简洁且高效快速的框架;2.设计追求最少的封装;3.设计符合人类思维,它让用户尽可能地专注于实现自己的想法;4.与google的Tensorflow类似,FAIR的支持足以确保PyTorch获得持续的开发更新;5.PyTorch作者亲自维护的论坛 供用户交流和求教问题6.入门简单

以上就是如何在Pytorch中使用Dataset和DataLoader读取数据,小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注编程网行业资讯频道。

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

如何在Pytorch中使用Dataset和DataLoader读取数据

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

如何在Pytorch中使用Dataset和DataLoader读取数据

本篇文章给大家分享的是有关如何在Pytorch中使用Dataset和DataLoader读取数据,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。一、前言确保安装scikit-im
2023-06-15

Pytorch如何加速Dataloader提升数据读取速度

这篇文章将为大家详细讲解有关Pytorch如何加速Dataloader提升数据读取速度,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。在利用DL解决图像问题时,影响训练效率最大的有时候是GPU,有时候也可能
2023-06-15

如何使用pytorch加载并读取COCO数据集

这篇文章主要介绍“如何使用pytorch加载并读取COCO数据集”,在日常操作中,相信很多人在如何使用pytorch加载并读取COCO数据集问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”如何使用pytorch
2023-06-30

如何在Python中使用pandas读取数据

今天就跟大家聊聊有关如何在Python中使用pandas读取数据,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。一、三种数据文件的读取二、csv、tsv、txt 文件读取1)CSV文件
2023-06-15

Pytorch中如何使用ImageFolder读取数据集时忽略特定文件

这篇文章主要介绍Pytorch中如何使用ImageFolder读取数据集时忽略特定文件,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!一、使用ImageFolder读取数据集时忽略特定文件如果事先知道需要忽略哪些文件,
2023-06-29

如何在C#中使用Socket读取超大的数据

这期内容当中小编将会给大家带来有关如何在C#中使用Socket读取超大的数据,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。/// /// 返回摄像头信息 /
2023-06-06

如何在pytorch中使用squeeze和cat函数

今天就跟大家聊聊有关如何在pytorch中使用squeeze和cat函数,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。1 squeeze(): 去除size为1的维度,包括行和列。至
2023-06-15

如何使用ADO.NET读取数据

小编给大家分享一下如何使用ADO.NET读取数据,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!ADO.NET还是比较常用的,于是我研究了一下ADO.NET读取数据
2023-06-17

如何在pytorch中使用numel函数

本篇文章给大家分享的是有关如何在pytorch中使用numel函数,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。获取tensor中一共包含多少个元素import torchx
2023-06-15

如何使用vbscript读取Access数据库

这篇文章主要介绍如何使用vbscript读取Access数据库,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!效果如图所示:核心代码:代码如下:Option Explicit Dim arrTables( ), i,
2023-06-08

在PyTorch中如何加载和处理数据集

在PyTorch中,通常通过使用torch.utils.data.Dataset和torch.utils.data.DataLoader来加载和处理数据集。首先,创建一个自定义的数据集类,继承自torch.utils.data.Datas
在PyTorch中如何加载和处理数据集
2024-03-05

PHP开发中如何使用Memcache进行数据缓存和读取?

随着Web开发技术的不断发展,数据缓存越来越成为开发人员们关注的问题。对于PHP开发人员来说,Memcache是一个非常好的缓存解决方案。Memcache是一种高效的内存缓存系统,能够极大地提高Web应用程序的性能,它可以把数据存储在内存中
PHP开发中如何使用Memcache进行数据缓存和读取?
2023-11-07

如何使用 cURL 在 PHP 中获取 JSON 数据和解码 JSON 数据

在本文中,我们将介绍在 PHP 中使用 cURL 获取 JSON 数据和解码 JSON 数据的方法。使用 cURL 函数在 PHP 中使用 cURL 函数获取 JSON 数据并解码 JSON 数据cURL 有不同的函数,它们共同用于获取 J
如何使用 cURL 在 PHP 中获取 JSON 数据和解码 JSON 数据
2024-02-27

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录