当前位置: 首页 > news >正文

芜湖新芜湖网站建设大连模板网站制作公司电话

芜湖新芜湖网站建设,大连模板网站制作公司电话,网上买购物的软件有哪些,国内做市场调查专业网站今天介绍transformer模型的decoder解码器,target mask目标掩码 背景 解码器层是对前面文章中提到的子层的包装器。它接受位置嵌入的目标序列,并将它们通过带掩码的多头注意力机制传递。使用掩码是为了防止解码器查看序列中的下一个标记。它迫使模型仅使用…

 今天介绍transformer模型的decoder解码器,target mask目标掩码

背景


解码器层是对前面文章中提到的子层的包装器。它接受位置嵌入的目标序列,并将它们通过带掩码的多头注意力机制传递。使用掩码是为了防止解码器查看序列中的下一个标记。它迫使模型仅使用之前的标记作为上下文来预测下一个标记。然后,它再通过另一个多头注意力机制,该机制将编码器层的输出作为额外的输入。最后,它通过位置全连接前馈网络。在这些子层中的每一个之后,它都会执行残差相加和层归一化。

Transformer中的解码器层


如上所述,解码器层无非是对子层的包装器。它实现了两个多头注意力子层和一个位置全连接前馈网络,每个子层之后都跟着层归一化和残差相加。

参看 编码器encoder:

Transformer模型-encoder编码器,padding填充,source mask填充掩码的简明介绍-CSDN博客icon-default.png?t=N7T8https://blog.csdn.net/ank1983/article/details/137399110

为什么需要掩码?


目标掩码target mask

要理解为什么需要目标掩码,最好看一下解码器的输入和输出的示例。解码器的目标是在给定的编码源序列和目标序列的一部分的情况下,预测序列中的下一个标记。为了实现这一点,必须有一个“开始”标记来提示模型预测序列中的下一个标记。这就是上面图像中“<bos>”标记的用途。还需要注意的是,解码器的输入和输出的大小必须相同。

如果目标是将“Wie heißt du?”翻译为“What is your name?”,那么编码器将编码源序列的含义并将其传递给解码器。给定“<bos>”标记和编码的源序列,解码器应该预测出“What”。然后,将“What”附加到“<bos>”后面以创建新的输入,即“<bos> What”。这就是为什么解码器的输入被认为是“向右移动”的原因。这可以传递给解码器以预测What is。这个标记被附加到之前的输入上,以创建新的输入“<bos> What is”。这将被传递给解码器以预测“What is your”。这个过程会一直重复,直到模型预测出“<eos>”标记。

通过使用目标掩码,模型可以同时学习每个迭代的目标序列,例如“<bos> What is your name? <eos>”。

请记住,解码器的输入和输出长度必须相同。因此,在将目标序列传递给解码器之前,需要移除每个目标序列的最后一个标记。如果目标序列存储在trg中,那么解码器的输入将是trg[:, :-1],用于选择除最后一个标记之外的所有内容,这可以在上面的目标输入中看到。预期的输出将是trg[:, 1:],即除第一个标记之外的所有内容,这是上面看到的预期输出。

总结来说,与编码器层一样,解码器也需要对其输入进行掩码处理。虽然填充掩码对于输入是必要的,但目标序列也需要一个前视或后续掩码。在推理过程中,模型只会被提供一个开始标记,并必须基于它预测下一个标记。然后,给定两个标记,它必须预测第三个标记。这个过程会一直重复,直到预测出序列结束标记。这就是Transformer的自回归行为。换句话说,未来的标记只基于过去的标记和来自编码器的嵌入进行预测。

为了模拟这种行为,模型使用后续掩码同时学习所有这些迭代。

可以使用PyTorch的torch.tril函数来创建后续掩码。它将具有(trg_seq_length, trg_seq_length)的形状。

填充掩码&目标掩码

对于序列中的每个标记,概率分布只能考虑之前的标记。但是,由于目标序列也必须进行填充,因此填充掩码和后续掩码必须结合使用。

这可以通过使用 & 运算符轻松实现,该运算符仅在两个掩码都为1时才返回1。

这个最终的目标掩码必须为每个批次中的序列创建,这意味着它将具有(batch_size, 1, trg_seq_length, trg_seq_length)的形状。这个掩码将在每个头之间进行广播。

原文链接:https://medium.com/@hunter-j-phillips/the-decoder-8882c33de69a

http://www.yayakq.cn/news/795123/

相关文章:

  • PHP网站开发技术期末作品长沙网络科技有限公司有哪些
  • 大数据网站怎么做咋么做网站
  • 中山网站制作专业医院网站建设原理
  • 电子商务网站建设收益手机版百度入口
  • 物流公司网站制作模板怎么做网站地图
  • 快速提高网站关键词排名优化西双版纳傣族自治州医院
  • 东莞专业网站设计制作公司佛山最新通知今天
  • 人才网站建设方案徐州市政工程招标信息
  • 推广新网站网站开发的各个阶段及其完成的任务
  • 拟定网站建设合同的工作过程记录威海房产网
  • 软件科技公司网站模板下载线上网站建设
  • 河西做网站公司手机网站建站cms
  • 乐清网站建设推广wifi如何咨询网络服务商
  • 如何将百度收录网站平面设计案例网站
  • 中国工信备案查询网站wordpress被挂马 广告
  • 红色系网站太原做网络推广的公司
  • 建设医院网站ppt模板下载成都网站设计报告书
  • 海洋公园网站建设方案办公室装修设计怎么设计
  • 网站开发的编程语言长沙做最好网站
  • 做代理的项目在哪个网站旅游景点网站建设规划书
  • 九一制作厂网站贵州建设厅考试网站二建成绩查询
  • 公司建站模版wordpress 添加导航菜单
  • 成都市住房和城乡建设局网站沧州网站建设的集成商
  • 网站开发与维护是学什么龙岗区住房和建设局网站
  • 先买域名不建设网站吗网站产品动效怎么做
  • 邯郸网站建设策划方案wordpress 个人国内收款
  • 网站引导页在线做wordpress+删除版权
  • 佛山北京网站建设网站硬件费用
  • 设计网站p站湖北专业的网瘾戒除学校地址
  • 30天网站建设全程实录 pdfwordpress首行缩进2字符怎么设置