Pytorch怎么实现Transformer

2023-06-30 14:29

短信预约 -IT技能 免费直播动态提醒

本篇内容主要讲解“Pytorch怎么实现Transformer”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“Pytorch怎么实现Transformer”吧!

一、构造数据

1.1 句子长度

# 关于word embedding，以序列建模为例# 输入句子有两个，第一个长度为2，第二个长度为4class="lazy" data-src_len = torch.tensor([2, 4]).to(torch.int32)# 目标句子有两个。第一个长度为4， 第二个长度为3tgt_len = torch.tensor([4, 3]).to(torch.int32)print(class="lazy" data-src_len)print(tgt_len)

输入句子(class="lazy" data-src_len)有两个，第一个长度为2，第二个长度为4
目标句子(tgt_len)有两个。第一个长度为4，第二个长度为3

Pytorch怎么实现Transformer

1.2 生成句子

用随机数生成句子，用0填充空白位置，保持所有句子长度一致

class="lazy" data-src_seq = torch.cat([torch.unsqueeze(F.pad(torch.randint(1, max_num_class="lazy" data-src_words, (L, )), (0, max(class="lazy" data-src_len)-L)), 0) for L in class="lazy" data-src_len])tgt_seq = torch.cat([torch.unsqueeze(F.pad(torch.randint(1, max_num_tgt_words, (L, )), (0, max(tgt_len)-L)), 0) for L in tgt_len])print(class="lazy" data-src_seq)print(tgt_seq)

class="lazy" data-src_seq为输入的两个句子，tgt_seq为输出的两个句子。
为什么句子是数字？在做中英文翻译时，每个中文或英文对应的也是一个数字，只有这样才便于处理。

Pytorch怎么实现Transformer

1.3 生成字典

在该字典中，总共有8个字(行)，每个字对应8维向量(做了简化了的)。注意在实际应用中，应当有几十万个字，每个字可能有512个维度。

# 构造word embeddingclass="lazy" data-src_embedding_table = nn.Embedding(9, model_dim)tgt_embedding_table = nn.Embedding(9, model_dim)# 输入单词的字典print(class="lazy" data-src_embedding_table)# 目标单词的字典print(tgt_embedding_table)

字典中，需要留一个维度给class token，故是9行。

Pytorch怎么实现Transformer

1.4 得到向量化的句子

通过字典取出1.2中得到的句子

# 得到向量化的句子class="lazy" data-src_embedding = class="lazy" data-src_embedding_table(class="lazy" data-src_seq)tgt_embedding = tgt_embedding_table(tgt_seq)print(class="lazy" data-src_embedding)print(tgt_embedding)

Pytorch怎么实现Transformer

该阶段总程序

import torch# 句子长度class="lazy" data-src_len = torch.tensor([2, 4]).to(torch.int32)tgt_len = torch.tensor([4, 3]).to(torch.int32)# 构造句子，用0填充空白处class="lazy" data-src_seq = torch.cat([torch.unsqueeze(F.pad(torch.randint(1, 8, (L, )), (0, max(class="lazy" data-src_len)-L)), 0) for L in class="lazy" data-src_len])tgt_seq = torch.cat([torch.unsqueeze(F.pad(torch.randint(1, 8, (L, )), (0, max(tgt_len)-L)), 0) for L in tgt_len])# 构造字典class="lazy" data-src_embedding_table = nn.Embedding(9, 8)tgt_embedding_table = nn.Embedding(9, 8)# 得到向量化的句子class="lazy" data-src_embedding = class="lazy" data-src_embedding_table(class="lazy" data-src_seq)tgt_embedding = tgt_embedding_table(tgt_seq)print(class="lazy" data-src_embedding)print(tgt_embedding)

二、位置编码

位置编码是transformer的一个重点，通过加入transformer位置编码，代替了传统RNN的时序信息，增强了模型的并发度。位置编码的公式如下：(其中pos代表行，i代表列)

Pytorch怎么实现Transformer

2.1 计算括号内的值

# 得到分子pos的值pos_mat = torch.arange(4).reshape((-1, 1))# 得到分母值i_mat = torch.pow(10000, torch.arange(0, 8, 2).reshape((1, -1))/8)print(pos_mat)print(i_mat)

Pytorch怎么实现Transformer

2.2 得到位置编码

# 初始化位置编码矩阵pe_embedding_table = torch.zeros(4, 8)# 得到偶数行位置编码pe_embedding_table[:, 0::2] =torch.sin(pos_mat / i_mat)# 得到奇数行位置编码pe_embedding_table[:, 1::2] =torch.cos(pos_mat / i_mat)pe_embedding = nn.Embedding(4, 8)# 设置位置编码不可更新参数pe_embedding.weight = nn.Parameter(pe_embedding_table, requires_grad=False)print(pe_embedding.weight)

Pytorch怎么实现Transformer

三、多头注意力

3.1 self mask

有些位置是空白用0填充的，训练时不希望被这些位置所影响，那么就需要用到self mask。self mask的原理是令这些位置的值为无穷小，经过softmax后，这些值会变为0，不会再影响结果。

3.1.1 得到有效位置矩阵

# 得到有效位置矩阵vaild_encoder_pos = torch.unsqueeze(torch.cat([torch.unsqueeze(F.pad(torch.ones(L), (0, max(class="lazy" data-src_len) - L)), 0)for L in class="lazy" data-src_len]), 2)valid_encoder_pos_matrix = torch.bmm(vaild_encoder_pos, vaild_encoder_pos.transpose(1, 2))print(valid_encoder_pos_matrix)

Pytorch怎么实现Transformer

3.1.2 得到无效位置矩阵

invalid_encoder_pos_matrix = 1-valid_encoder_pos_matrixmask_encoder_self_attention = invalid_encoder_pos_matrix.to(torch.bool)print(mask_encoder_self_attention)

True代表需要对该位置mask

Pytorch怎么实现Transformer

3.1.3 得到mask矩阵
用极小数填充需要被mask的位置

# 初始化mask矩阵score = torch.randn(2, max(class="lazy" data-src_len), max(class="lazy" data-src_len))# 用极小数填充mask_score = score.masked_fill(mask_encoder_self_attention, -1e9)print(mask_score)

Pytorch怎么实现Transformer

算其softmat

mask_score_softmax = F.softmax(mask_score)print(mask_score_softmax)

可以看到，已经达到预期效果

Pytorch怎么实现Transformer

到此，相信大家对“Pytorch怎么实现Transformer”有了更深的了解，不妨来实际操作一番吧！这里是编程网网站，更多相关内容可以进入相关频道进行查询，关注我们，继续学习！

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

阅读原文内容投诉

Pytorch怎么实现Transformer

下载Word文档到电脑，方便收藏和打印～

下载Word文档

Pytorch怎么实现Transformer

一、构造数据

1.1 句子长度

1.2 生成句子

1.3 生成字典

1.4 得到向量化的句子

二、位置编码

2.1 计算括号内的值

2.2 得到位置编码

三、多头注意力

3.1 self mask

Pytorch怎么实现Transformer

相关文章

猜你喜欢

Pytorch怎么实现Transformer

Pytorch从0实现Transformer的实践

PyTorch中的Transformer模型是如何实现的

Pytorch实现EdgeCNN(基于PyTorch实现)

Pytorch实现GCN(基于PyTorch实现)

Pytorch实现GAT(基于PyTorch实现)

PyTorch怎么实现图像识别

怎么使用Pytorch+PyG实现MLP

pytorch怎么实现bp神经网络

PyTorch怎么实现基本算法FedAvg

Transformer模型入门详解及代码实现

pytorch transforms图像增强怎么实现

pytorch中的transforms.ToTensor和transforms.Normalize怎么实现

PyTorch模型转TensorRT是怎么实现的?

怎么利用PyTorch实现图像识别

怎么利用PyTorch实现爬山算法

Keras实现Vision Transformer VIT模型示例详解

pytorch多gpu并行训练怎么实现

Pytorch+PyG实现MLP

Pytorch+PyG实现GraphConv

热门标签

编程热搜

编程资源站

目录

感谢您的提交，我们服务专员将在30分钟内给您回复