我的编程空间,编程开发者的网络收藏夹
学习永远不晚

Pytorch怎么实现Transformer

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

Pytorch怎么实现Transformer

本篇内容主要讲解“Pytorch怎么实现Transformer”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Pytorch怎么实现Transformer”吧!

一、构造数据

1.1 句子长度

# 关于word embedding,以序列建模为例# 输入句子有两个,第一个长度为2,第二个长度为4class="lazy" data-src_len = torch.tensor([2, 4]).to(torch.int32)# 目标句子有两个。第一个长度为4, 第二个长度为3tgt_len = torch.tensor([4, 3]).to(torch.int32)print(class="lazy" data-src_len)print(tgt_len)

输入句子(class="lazy" data-src_len)有两个,第一个长度为2,第二个长度为4
目标句子(tgt_len)有两个。第一个长度为4, 第二个长度为3

Pytorch怎么实现Transformer

1.2 生成句子

用随机数生成句子,用0填充空白位置,保持所有句子长度一致

class="lazy" data-src_seq = torch.cat([torch.unsqueeze(F.pad(torch.randint(1, max_num_class="lazy" data-src_words, (L, )), (0, max(class="lazy" data-src_len)-L)), 0) for L in class="lazy" data-src_len])tgt_seq = torch.cat([torch.unsqueeze(F.pad(torch.randint(1, max_num_tgt_words, (L, )), (0, max(tgt_len)-L)), 0) for L in tgt_len])print(class="lazy" data-src_seq)print(tgt_seq)

class="lazy" data-src_seq为输入的两个句子,tgt_seq为输出的两个句子。
为什么句子是数字?在做中英文翻译时,每个中文或英文对应的也是一个数字,只有这样才便于处理。

Pytorch怎么实现Transformer

1.3 生成字典

在该字典中,总共有8个字(行),每个字对应8维向量(做了简化了的)。注意在实际应用中,应当有几十万个字,每个字可能有512个维度。

# 构造word embeddingclass="lazy" data-src_embedding_table = nn.Embedding(9, model_dim)tgt_embedding_table = nn.Embedding(9, model_dim)# 输入单词的字典print(class="lazy" data-src_embedding_table)# 目标单词的字典print(tgt_embedding_table)

字典中,需要留一个维度给class token,故是9行。

Pytorch怎么实现Transformer

1.4 得到向量化的句子

通过字典取出1.2中得到的句子

# 得到向量化的句子class="lazy" data-src_embedding = class="lazy" data-src_embedding_table(class="lazy" data-src_seq)tgt_embedding = tgt_embedding_table(tgt_seq)print(class="lazy" data-src_embedding)print(tgt_embedding)

Pytorch怎么实现Transformer

该阶段总程序

import torch# 句子长度class="lazy" data-src_len = torch.tensor([2, 4]).to(torch.int32)tgt_len = torch.tensor([4, 3]).to(torch.int32)# 构造句子,用0填充空白处class="lazy" data-src_seq = torch.cat([torch.unsqueeze(F.pad(torch.randint(1, 8, (L, )), (0, max(class="lazy" data-src_len)-L)), 0) for L in class="lazy" data-src_len])tgt_seq = torch.cat([torch.unsqueeze(F.pad(torch.randint(1, 8, (L, )), (0, max(tgt_len)-L)), 0) for L in tgt_len])# 构造字典class="lazy" data-src_embedding_table = nn.Embedding(9, 8)tgt_embedding_table = nn.Embedding(9, 8)# 得到向量化的句子class="lazy" data-src_embedding = class="lazy" data-src_embedding_table(class="lazy" data-src_seq)tgt_embedding = tgt_embedding_table(tgt_seq)print(class="lazy" data-src_embedding)print(tgt_embedding)

二、位置编码

位置编码是transformer的一个重点,通过加入transformer位置编码,代替了传统RNN的时序信息,增强了模型的并发度。位置编码的公式如下:(其中pos代表行,i代表列)

Pytorch怎么实现Transformer

2.1 计算括号内的值

# 得到分子pos的值pos_mat = torch.arange(4).reshape((-1, 1))# 得到分母值i_mat = torch.pow(10000, torch.arange(0, 8, 2).reshape((1, -1))/8)print(pos_mat)print(i_mat)

Pytorch怎么实现Transformer

2.2 得到位置编码

# 初始化位置编码矩阵pe_embedding_table = torch.zeros(4, 8)# 得到偶数行位置编码pe_embedding_table[:, 0::2] =torch.sin(pos_mat / i_mat)# 得到奇数行位置编码pe_embedding_table[:, 1::2] =torch.cos(pos_mat / i_mat)pe_embedding = nn.Embedding(4, 8)# 设置位置编码不可更新参数pe_embedding.weight = nn.Parameter(pe_embedding_table, requires_grad=False)print(pe_embedding.weight)

Pytorch怎么实现Transformer

三、多头注意力

3.1 self mask

有些位置是空白用0填充的,训练时不希望被这些位置所影响,那么就需要用到self mask。self mask的原理是令这些位置的值为无穷小,经过softmax后,这些值会变为0,不会再影响结果。

3.1.1 得到有效位置矩阵

# 得到有效位置矩阵vaild_encoder_pos = torch.unsqueeze(torch.cat([torch.unsqueeze(F.pad(torch.ones(L), (0, max(class="lazy" data-src_len) - L)), 0)for L in class="lazy" data-src_len]), 2)valid_encoder_pos_matrix = torch.bmm(vaild_encoder_pos, vaild_encoder_pos.transpose(1, 2))print(valid_encoder_pos_matrix)

Pytorch怎么实现Transformer

3.1.2 得到无效位置矩阵

invalid_encoder_pos_matrix = 1-valid_encoder_pos_matrixmask_encoder_self_attention = invalid_encoder_pos_matrix.to(torch.bool)print(mask_encoder_self_attention)

True代表需要对该位置mask

Pytorch怎么实现Transformer

3.1.3 得到mask矩阵
用极小数填充需要被mask的位置

# 初始化mask矩阵score = torch.randn(2, max(class="lazy" data-src_len), max(class="lazy" data-src_len))# 用极小数填充mask_score = score.masked_fill(mask_encoder_self_attention, -1e9)print(mask_score)

Pytorch怎么实现Transformer

算其softmat

mask_score_softmax = F.softmax(mask_score)print(mask_score_softmax)

可以看到,已经达到预期效果

Pytorch怎么实现Transformer

到此,相信大家对“Pytorch怎么实现Transformer”有了更深的了解,不妨来实际操作一番吧!这里是编程网网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

Pytorch怎么实现Transformer

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

Pytorch怎么实现Transformer

本篇内容主要讲解“Pytorch怎么实现Transformer”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“Pytorch怎么实现Transformer”吧!一、构造数据1.1 句子长度# 关于
2023-06-30

PyTorch中的Transformer模型是如何实现的

在PyTorch中,Transformer模型主要由以下几个部分组成:Encoder:包括多个Encoder层,每个Encoder层由多头自注意力机制和前馈神经网络组成。Encoder的作用是将输入的序列进行特征提取和编码。Decoder:
PyTorch中的Transformer模型是如何实现的
2024-03-05

PyTorch怎么实现图像识别

这篇文章主要介绍“PyTorch怎么实现图像识别”,在日常操作中,相信很多人在PyTorch怎么实现图像识别问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”PyTorch怎么实现图像识别”的疑惑有所帮助!接下来
2023-06-29

怎么使用Pytorch+PyG实现MLP

这篇文章主要讲解了“怎么使用Pytorch+PyG实现MLP”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“怎么使用Pytorch+PyG实现MLP”吧!项目环境:平台:Windows10语言
2023-07-05

pytorch怎么实现bp神经网络

要在PyTorch中实现一个BP神经网络,需要遵循以下步骤:定义神经网络结构:首先,需要定义神经网络的结构,包括输入层、隐藏层和输出层的神经元数量。可以通过继承nn.Module类来定义一个自定义的神经网络模型。import torchi
pytorch怎么实现bp神经网络
2024-04-08

PyTorch怎么实现基本算法FedAvg

本文小编为大家详细介绍“PyTorch怎么实现基本算法FedAvg”,内容详细,步骤清晰,细节处理妥当,希望这篇“PyTorch怎么实现基本算法FedAvg”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。数据介绍联
2023-06-30

pytorch transforms图像增强怎么实现

这篇文章主要介绍“pytorch transforms图像增强怎么实现”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“pytorch transforms图像增强怎么实现”文章能帮助大家解决问题。一、
2023-07-05

pytorch中的transforms.ToTensor和transforms.Normalize怎么实现

本文小编为大家详细介绍“pytorch中的transforms.ToTensor和transforms.Normalize怎么实现”,内容详细,步骤清晰,细节处理妥当,希望这篇“pytorch中的transforms.ToTensor和tr
2023-06-30

PyTorch模型转TensorRT是怎么实现的?

转换步骤概览准备好模型定义文件(.py文件)准备好训练完成的权重文件(.pth或.pth.tar)安装onnx和onnxruntime将训练好的模型转换为.onnx格式安装tensorRT环境参数ubuntu-18.04 PyTorch-1
2022-06-02

怎么利用PyTorch实现图像识别

这篇文章主要介绍“怎么利用PyTorch实现图像识别”,在日常操作中,相信很多人在怎么利用PyTorch实现图像识别问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”怎么利用PyTorch实现图像识别”的疑惑有所
2023-07-05

怎么利用PyTorch实现爬山算法

这篇文章主要介绍“怎么利用PyTorch实现爬山算法”,在日常操作中,相信很多人在怎么利用PyTorch实现爬山算法问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”怎么利用PyTorch实现爬山算法”的疑惑有所
2023-07-02

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录