我的编程空间,编程开发者的网络收藏夹
学习永远不晚

用Pytorch构建一个喵咪识别模型

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

用Pytorch构建一个喵咪识别模型

 本文参加新星计划人工智能(Pytorch)赛道:https://bbs.csdn.net/topics/613989052

目录

一、前言

二、问题阐述及理论流程

2.1问题阐述

2.2猫咪图片识别原理 

三、用PyTorch 实现 

3.1PyTorch介绍

3.2PyTorch 构建模型的五要素

3.3PyTorch 实现的步骤

3.3.1.数据

3.3.2模型

3.3.3损失函数

3.3.4优化器

3.3.5迭代训练

四、我用了哪些方法防止过拟合?

4.1控制网络规模

4.2数据增强

4.3正则化

4.4K 折交叉验证

五、用自己的图片验证

5.1输入数据

5.2代码实现 

5.3结果输出及分析

完整代码


一、前言

        舍友最近养了只猫咪,看起来很好看,但是你绝对想不到它拉的shi巨臭啊,哈哈哈哈,就很离谱。刚好最近在学习Pytorch,心血来潮,就用Pytorch来做个喵咪识别模型并,于是就有了本篇博文。

     

二、问题阐述及理论流程

2.1问题阐述

现一共有 259 张图片,总体分为两类:

有猫咪类

无猫咪类 

2.2猫咪图片识别原理 

三、用PyTorch 实现 

3.1PyTorch介绍

  PyTorch 是一个开源的深度学习框架,它的底层基于 Torch ,但实现与运用全部由 python 来完成。该框架主要用于人工智能领域的科学研究与应用开发。

3.2PyTorch 构建模型的五要素

1.数据:包括数据读取,数据清洗,进行数据划分和数据预处理。

2.模型:包括构建模型模块,组织复杂网络,初始化网络参数,定义网络层。

3.损失函数:包括创建损失函数,设置损失函数超参数,要根据不同任务选择合适的损失函数。

4.优化器:包括根据梯度使用某种优化器更新参数,管理模型参数,调整学习率。

5.迭代训练:组织上述 4 个模块进行反复训练。观察训练效果,绘制 Loss/ Accuracy 曲线或者用 TensorBoard 进行可视化分析。

3.3PyTorch 实现的步骤

3.3.1.数据

        在深度学习时会遇到各种不同形式的数据,如文本、图片、音频等,而每种数据又有多种文件类型。因此拿到数据,我们首先应该了解它的内部结构。

  h5py 文件是一种 " Dataset " 和 " Group " 二合一的容器:

  • 「Dataset」: 类似数组组织的数据的集合,像 numpy 数组一样工作;

  • 「Group」: 包含了其它 Dataset 和 其它 Group ,像字典一样工作。


读取下载好的 h5py 文件(以含有 209 张图片的测试集为例)

import h5pyf = h5py.File("/home/tian/dataset/catvnocat/train/train_catvnoncat.h5","r")#"r"代表读取模式for key in f.keys():    print(key) #输出#list_classes#train_set_x#train_set_y

依次打印出这三个" key "下的内容 

print(f["list_classes"])print(f["train_set_x"])print(f["train_set_y"])#输出###

可以得到三个 Dataset 的相关信息:

  • list_classes:包含两个元素 ' non-cat ' 和' cat ',代表无猫和有猫这两个大类。

  • train_set_x :一个四维张量,形状为 209 * 64 * 64 * 3。代表一共有 209 张图片,其中每张图片以像素大小为 64 * 64 的三通道矩阵存储信息。

  • train_set_y :一个一维数组,元素全部存储着 209 张图片对应的标签,其中有猫为 1 ,无猫为 0 。


该 h5py 文件的结构如下图所示:

制作数据集

  从torch.utils.data中引入DatasetDataset是能够表示数据集的抽象类,一般有三个方法:

  • 「__init__方法」

    用于类的初始化,负责创建类的实例属性并进行赋值,并在实例化类后自动执行。这里我创建的 MyData 类中包含以下属性:

    • Archive:文件的路径及对文件的操作,只读或写入

    • Image:样本中的图片或者包含全部图片信息的像素矩阵

    • Label:样本中的标签

    • Transform:可能要对数据进行的变换或增强

  • 「__getitem__方法」

    所有子类都必须重写该方法,该方法通过索引(index)或键(key)访问样本,返回值为 样本和标签。

  • 「__len__方法」

    返回数据集的大小。

from torch.utils.data import Datasetclass MyDataset(Dataset):        def __init__(self, archive , image , label , transform = None ):        self.Archive = h5.File(archive, 'r')        self.Images = self.Archive[image]        self.Labels = self.Archive[label]        self.Transform = transform        def __getitem__(self,index):                        image = self.Images[index]        label = self.Labels[index]        if self.Transform is not None:            image = self.Transforms(image)          return image ,label        def __len__(self):        return len(self.Labels)train_dataset = MyDataset('/home/tian/dataset/catvnocat/train/train_catvnoncat.h5','train_set_x','train_set_y',train_transformer)test_dataset = MyDataset('/home/tian/dataset/catvnocat/test/test_catvnoncat.h5','test_set_x','test_set_y',test_transformer)

读取数据集

  从torch.utils.data引入DataLoader,它帮助我们从Dataset中加载样本数据。它联合了数据集 Dataset 和采样器 Sampler,使其本身可以像一个迭代器一样工作。前者提供数据来源,后者提供索引。

from torch.utils.data import Dataloadertrain_loader = DataLoader(train_dataset, batch_size = batch_size_train, shuffle=True)test_loader = DataLoader(test_dataset, batch_size = batch_size_test, shuffle=False)

shuffle = True指的是将样本打乱,一般只针对训练集。

3.3.2模型

  该神经网络采用简单的 2 隐藏层全连接的方式,并在每一层采用 ReLU 函数作为激活函数,最后通过 Softmax 函数输出预测概率,以达到二分类的目的。

class Net(nn.Module):    def __init__(self, in_dim, n_hidden_1,n_hidden_2,out_dim):        super(Net, self).__init__()        self.layer1 = nn.Sequential(nn.Linear(in_dim, n_hidden_1),nn.BatchNorm1d(n_hidden_1), nn.ReLU(True),nn.Dropout(0.25))        self.layer2 = nn.Sequential(nn.Linear(n_hidden_1, n_hidden_2),nn.BatchNorm1d(n_hidden_2), nn.ReLU(True),nn.Dropout(0.25))        self.layer3 = nn.Sequential(nn.Linear(n_hidden_2, out_dim), nn.Softmax(dim = 1))         def forward(self, x):        x = self.layer1(x)        x = self.layer2(x)        x = self.layer3(x)        return x

3.3.3损失函数

  交叉熵损失函数是二分类问题常用的损失函数,可以直接在torch.nn里直接调用,其形式为:

criterion = nn.CrossEntropyLoss()

3.3.4优化器

  在 torch.optim中直接调用随机梯度下降法 SGD:

optimizer = optim.SGD(model.parameters(), lr = learning_rate, weight_decay = 1e-4)

3.3.5迭代训练

  一切准备工作就绪,进行迭代训练。也可以根据需要绘制 Loss/ Accuracy 曲线观察 train_loss 和 val_loss,并以此为依据来调试超参数。

for epoch in range(num_epoches+1):    model.train()        for data in train_loader:        img, label = data        img = img.view(img.size(0), -1)          img = Variable(img)        label = Variable(label)        out = model(img.to(torch.float32))        loss = criterion(out, label)        _, pred = torch.max(out, 1)        acc = (pred == label).sum().item() / (len(train_dataset))        optimizer.zero_grad()        loss.backward()        optimizer.step()    model.eval()    eval_loss = 0    eval_acc = 0            for data in test_loader:        img, label = data        img = img.view(img.size(0), -1)        out = model(img.to(torch.float32))        loss_1 = criterion(out, label)        eval_loss += loss_1.data.item()*label.size(0)        _, pred = torch.max(out, 1)        eval_acc += (pred == label).sum().item() / len(test_dataset)    if epoch%50 == 0:        train_losses.append(loss.data.item())        train_acc.append(acc)        test_losses.append(loss_1.data.item())        test_acc.append(eval_acc)        print('epoch: {}'.format(epoch))        print('Train Loss: {:.4}, Train_Acc: {:.4}'.format(loss.data.item(), acc))        print('Test Loss: {:.4f}, Test_Acc: {:.4f}'.format(eval_loss / (len(test_dataset)),eval_acc))fig = plt.figure()plt.plot(train_counter, train_losses, color='blue')plt.plot(test_counter, test_losses, '--',color='red')plt.legend(['Train Loss', 'Test Loss'], loc='upper right')plt.xlabel('number of training examples seen')plt.ylabel('negative log likelihood loss')fig = plt.figure()plt.plot(train_counter, train_acc, color='blue')plt.plot(test_counter, test_acc, '--',color='red')plt.legend(['Train Acc', 'Test Acc'], loc='lower right')plt.xlabel('number of training examples seen')plt.ylabel('Acc')plt.show()

「结果展示」

         可以看到,过拟合的情况没有发生,并且训练集和测试集的准确率都接近 90%,相对于原本的准确率有了较大的提高。

四、我用了哪些方法防止过拟合?

4.1控制网络规模

  当神经网络具有过多的神经元时,训练集中包含的有限信息量不足以训练隐藏层中的所有神经元,很可能导致过拟合。因此要控制网络规模,既不能太宽也不能太深。

4.2数据增强

  样本量少是造成过拟合的主要原因之一,但我们往往很难从源头上解决这一问题。数据增强通过对现有的样本(以图片为例)进行各种不同的变换(如随机自定义大小裁剪、随机翻转、随机旋转、增加色彩对比度等),然后适当增加训练迭代次数,从而达到样本量扩张的效果。

  本文采用了以下手段进行数据增强:

  • 对输入图片随机裁剪,将原本像素大小为64的图片裁剪成像素大小为48的图片

  • 在水平方向上对一半的图片进行随机翻转

  • 在垂直方向上对一半的图片进行随机翻转

  • 对图在一定角度内进行旋转

from torchvision import transformstrain_transformer = transforms.Compose([    transforms.ToPILImage(),    transforms.RandomResizedCrop(48),    transforms.RandomHorizontalFlip(),     transforms.RandomRotation((-15, 15)),    transforms.ToTensor(),    transforms.Normalize(mean=[0.5, 0.5, 0.5], std=[0.5, 0.5, 0.5])])test_transformer = transforms.Compose([    transforms.ToPILImage(),    transforms.Resize(48),    transforms.ToTensor(),    transforms.Normalize(mean=[0.5, 0.5, 0.5], std=[0.5, 0.5, 0.5])])

 测试集大多数情况下不进行数据增强,这里为了适应训练集数据增强后的图片大小对测试集进行了尺寸缩放,同样变为像素大小为的图片。

4.3正则化

  • 「Drop_out」

  作为常用的预防过拟合的方法之一,它的主要思想是让隐藏层的节点在每次迭代时有一定几率失效,从而避免对某个节点的强依赖,让反向传播的修正值可以更加平衡的分布到各个参数上。也在一定程度上降低了网络复杂度。

  • 「weight_decay」

  过拟合时模型会拟合很多位置较偏的点,导致拟合函数在某些小区间剧烈变化,权重 w 的绝对值很大。此方法通过控制权重 w 的大小来缓解过拟合的情况。

4.4K 折交叉验证

  以模型调优的思路来缓解过拟合。在训练每种模型时,通过k折交叉验证得到k组不同的训练集和测试集,并将每组的误差平均作为衡量模型泛化能力的准则,从而选择出泛化能力最好的(即最不容易发生过拟合)的模型。

kf = KFold(n_splits = 7, shuffle=True)

五、用自己的图片验证

        训练神经网络最终的目的就是为了应用,因此最后一个环节我们用自己的图片来验证“猫咪识别器”的性能如何。


5.1输入数据

有猫咪类

 无猫咪类

5.2代码实现 

from PIL import Imagedef trans_pic(img_dir,width,height):     image = Image.open(img_dir) #打开图片    resized_image = image.resize((width, height), Image.ANTIALIAS)    data = np.asarray(resized_image)#转换为矩阵    image = Image.fromarray(data)  #将之前的矩阵转换为图片    #image.show()#调用本地软件显示图片,win10是叫照片的工具    return datapath_cat = [r"/home/tian/Pictures/cat_1.jpg",        r"/home/tian/Pictures/cat_2.jpg",        r"/home/tian/Pictures/cat_3.jpg",        r"/home/tian/Pictures/cat_4.jpg",        r"/home/tian/Pictures/cat_5.jpg"]path_nocat = [r"/home/tian/Pictures/nocat_1.jpg",        r"/home/tian/Pictures/nocat_2.jpg",        r"/home/tian/Pictures/nocat_3.jpg",        r"/home/tian/Pictures/nocat_4.jpg",        r"/home/tian/Pictures/nocat_5.jpg"]for i in range(5):         a = test_transformer(trans_pic(path_cat[i],48,48)).view(1, -1)    b = test_transformer(trans_pic(path_nocat[i],48,48)).view(1, -1)    out_1 = model(a.to(torch.float32))    out_2 = model(b.to(torch.float32))    _, pred_1= torch.max(out_1, 1)    _, pred_2= torch.max(out_2, 1)         if pred_1 == 1:        print("第",i+1,"张猫咪图片识别正确")    if pred_1 == 0:        print("第",i+1,"张猫咪图片识别错误")    if pred_2 == 1:        print("第",i+1,"张非猫咪图片识别错误")    if pred_2 == 0:        print("第",i+1,"张非猫咪图片识别正确")    print("\n")

5.3结果输出及分析

「结果输出」

第 1 张猫咪图片识别正确第 1 张非猫咪图片识别正确第 2 张猫咪图片识别正确第 2 张非猫咪图片识别正确第 3 张猫咪图片识别正确第 3 张非猫咪图片识别错误第 4 张猫咪图片识别正确第 4 张非猫咪图片识别错误第 5 张猫咪图片识别正确第 5 张非猫咪图片识别正确

「结果分析」

  • 猫咪图片:都能识别正确。

  • 非猫咪图片:第三张、第四张图片出现了识别错误。

    • 对于风景图这种与猫咪图片差别很大的图片,识别器能轻松地辨别;

    • 对于老虎、老鼠这些与猫咪在特征上有很多相似地方的动物,猫咪识别器显然还不具备能力将他们很好地区分开来。

  因此在图片识别领域,我们总是需要更合适的网络结构、更大规模的数据以及更合适的超参数选择。

完整代码

import numpy as npimport h5py as h5import torchfrom torch.utils.data import Dataset,DataLoaderimport torch.nn.functional as Ffrom torch import nn, optimfrom torch.autograd import Variablefrom torchvision import datasets, transformsfrom matplotlib import pyplot as pltbatch_size_train = 209batch_size_test = 50learning_rate = 0.0075num_epoches = 3500momentum = 0.5train_transformer = transforms.Compose([    transforms.ToPILImage(),    transforms.RandomResizedCrop(48),    transforms.RandomHorizontalFlip(),        transforms.RandomVerticalFlip(),    transforms.RandomRotation((-15, 15)),    transforms.ToTensor(),    transforms.Normalize(mean=[0.5, 0.5, 0.5], std=[0.5, 0.5, 0.5])])test_transformer = transforms.Compose([    transforms.ToPILImage(),    transforms.Resize(48),     transforms.ToTensor(),    transforms.Normalize(mean=[0.5, 0.5, 0.5], std=[0.5, 0.5, 0.5])])class MyDataset(Dataset):        def __init__(self, archive,image,label,transform = None):        self.archive = h5.File(archive, 'r')        self.images = self.archive[image]        self.labels = self.archive[label]        self.transform = transform        def __getitem__(self,index):                        image = self.images[index]        label = self.labels[index]        if self.transform is not None:            image = self.transform(image)          return image ,label        def __len__(self):        return len(self.labels)        train_dataset = MyDataset('/home/tian/dataset/catvnocat/train/train_catvnoncat.h5','train_set_x','train_set_y',train_transformer)test_dataset = MyDataset('/home/tian/dataset/catvnocat/test/test_catvnoncat.h5','test_set_x','test_set_y',test_transformer)train_loader = DataLoader(train_dataset, batch_size=batch_size_train, shuffle=True)test_loader = DataLoader(test_dataset, batch_size=batch_size_test, shuffle=False)class Batch_Net(nn.Module):        def __init__(self, in_dim, n_hidden_1,n_hidden_2,out_dim):        super(Batch_Net, self).__init__()        self.layer1 = nn.Sequential(nn.Linear(in_dim, n_hidden_1),nn.BatchNorm1d(n_hidden_1), nn.ReLU(True),nn.Dropout(0.25))#,nn.Dropout(0.3))        self.layer2 = nn.Sequential(nn.Linear(n_hidden_1, n_hidden_2),nn.BatchNorm1d(n_hidden_2), nn.ReLU(True),nn.Dropout(0.25))#,nn.Dropout(0.5))#,nn.Dropout(0.3))#,nn.Dropout(0.5))        self.layer3 = nn.Sequential(nn.Linear(n_hidden_2, out_dim),nn.Softmax(dim = 1))         def forward(self, x):        x = self.layer1(x)        x = self.layer2(x)        x = self.layer3(x)                return x#构建模型实例 model = Batch_Net(48*48*3,90,10,2)criterion = nn.CrossEntropyLoss()optimizer = optim.SGD(model.parameters(), lr=learning_rate,weight_decay= 1e-4)train_losses = []train_acc = []train_counter = [i * len(train_loader)*50 for i in range(num_epoches // 50 + 1)]test_losses = []test_acc = []test_counter = [i * len(test_loader)*50 for i in range(num_epoches // 50 + 1)]for epoch in range(num_epoches+1):    model.train()        for data in train_loader:        img, label = data        img = img.view(img.size(0), -1)          img = Variable(img)        label = Variable(label)        out = model(img.to(torch.float32))        loss = criterion(out, label)        _, pred = torch.max(out, 1)        acc = (pred == label).sum().item() / (len(train_dataset))        optimizer.zero_grad()        loss.backward()        optimizer.step()    model.eval()    eval_loss = 0    eval_acc = 0            for data in test_loader:        img, label = data        img = img.view(img.size(0), -1)        out = model(img.to(torch.float32))        loss_1 = criterion(out, label)        eval_loss += loss_1.data.item()*label.size(0)        _, pred = torch.max(out, 1)        eval_acc += (pred == label).sum().item() / len(test_dataset)    if epoch%50 == 0:        train_losses.append(loss.data.item())        train_acc.append(acc)        test_losses.append(loss_1.data.item())        test_acc.append(eval_acc)        print('epoch: {}'.format(epoch))        print('Train Loss: {:.4}, Train_Acc: {:.4}'.format(loss.data.item(), acc))        print('Test Loss: {:.4f}, Test_Acc: {:.4f}'.format(eval_loss / (len(test_dataset)),eval_acc))fig = plt.figure()plt.plot(train_counter, train_losses, color='blue')plt.plot(test_counter, test_losses, '--',color='red')plt.legend(['Train Loss', 'Test Loss'], loc='upper right')plt.xlabel('number of training examples seen')plt.ylabel('negative log likelihood loss')fig = plt.figure()plt.plot(train_counter, train_acc, color='blue')plt.plot(test_counter, test_acc, '--',color='red')plt.legend(['Train Acc', 'Test Acc'], loc='lower right')plt.xlabel('number of training examples seen')plt.ylabel('Acc')plt.show()

来源地址:https://blog.csdn.net/zxb_1222/article/details/129677477

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

用Pytorch构建一个喵咪识别模型

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

怎么使用Pytorch构建第一个神经网络模型

这篇文章主要介绍“怎么使用Pytorch构建第一个神经网络模型”,在日常操作中,相信很多人在怎么使用Pytorch构建第一个神经网络模型问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”怎么使用Pytorch构建
2023-07-05

使用Pytorch构建第一个神经网络模型 附案例实战

这篇文章主要介绍了用Pytorch构建第一个神经网络模型(附案例实战),本文通过实例代码给大家讲解的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
2023-03-15

怎么用Pytorch搭建一个房价预测模型

本篇内容主要讲解“怎么用Pytorch搭建一个房价预测模型”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“怎么用Pytorch搭建一个房价预测模型”吧!一、项目介绍 在此项目中,目的
2023-07-05

探索手势识别模型的算法和原理(用Python创建一个简单的手势识别训练模型)

手势识别是计算机视觉领域的一个重要研究领域。它的目的是通过解析视频流或图像序列中的人手部动作来确定手势的含义。手势识别具有广泛的应用,例如手势控制的智能家居,虚拟现实和游戏,安防监控等领域。本文将介绍手势识别模型使用的算法和原理,并使用Py
探索手势识别模型的算法和原理(用Python创建一个简单的手势识别训练模型)
2024-01-24

详解Python手写数字识别模型的构建与使用

这篇文章主要为大家详细介绍了Python中手写数字识别模型的构建与使用,文中的示例代码简洁易懂,对我们学习Python有一定的帮助,需要的可以参考一下
2022-12-22

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录