当前位置: 首页 > news >正文

江门市住房和城乡建设局网站微信 网站 织梦

江门市住房和城乡建设局网站,微信 网站 织梦,广州哪里比较好玩,零基础学it哪个专业好1 Decoder端的输入解析 1.1 Decoder端的架构 Transformer原始论文中的Decoder模块是由N6个相同的Decoder Block堆叠而成,其中每一个Block是由3个子模块构成,分别是多头self-attention模块,Encoder-Decoder attention模块,前馈全…

1 Decoder端的输入解析

1.1 Decoder端的架构

Transformer原始论文中的Decoder模块是由N=6个相同的Decoder Block堆叠而成,其中每一个Block是由3个子模块构成,分别是多头self-attention模块,Encoder-Decoder attention模块,前馈全连接层模块。

  • 6个Block的输入不完全相同:
    • 最下面的一层Block接收的输入是经历了MASK之后的Decoder端的输入 + Encoder端的输出.
    • 其他5层Block接收的输入模式一致, 都是前一层Block的输出 + Encoder端的输出.

1.2 Decoder在训练阶段的输入解析

  • 从第二层Block到第六层Block的输入模式一致, 无需特殊处理, 都是固定操作的循环处理.
  • 聚焦在第一层的Block上: 训练阶段每一个time step的输入是上一个time step的输入加上真实标签序列向后移一位. 具体来说, 假设现在的真实标签序列等于"How are you?", 当time step=1时, 输入张量为一个特殊的token, 比如"SOS"; 当time step=2时, 输入张量为"SOS How"; 当time step=3时, 输入张量为"SOS How are", 以此类推...
  • 注意: 在真实的代码实现中, 训练阶段不会这样动态输入, 而是一次性的把目标序列全部输入给第一层的Block, 然后通过多头self-attention中的MASK机制对序列进行同样的遮掩即可.

1.3 Decoder在预测阶段的输入解析

  • 同理于训练阶段, 预测时从第二层Block到第六层Block的输入模式一致, 无需特殊处理, 都是固定操作的循环处理.
  • 聚焦在第一层的Block上: 因为每一步的输入都会有Encoder的输出张量, 因此这里不做特殊讨论, 只专注于纯粹从Decoder端接收的输入. 预测阶段每一个time step的输入是从time step=0, input_tensor="SOS"开始, 一直到上一个time step的预测输出的累计拼接张量. 具体来说:
    • 当time step=1时, 输入的input_tensor="SOS", 预测出来的输出值是output_tensor="What";
    • 当time step=2时, 输入的input_tensor="SOS What", 预测出来的输出值是output_tensor="is";
    • 当time step=3时, 输入的input_tensor="SOS What is", 预测出来的输出值是output_tensor="the";
    • 当time step=4时, 输入的input_tensor="SOS What is the", 预测出来的输出值是output_tensor="matter";
    • 当time step=5时, 输入的input_tensor="SOS What is the matter", 预测出来的输出值是output_tensor="?";
    • 当time step=6时, 输入的input_tensor="SOS What is the matter ?", 预测出来的输出值是output_tensor="EOS", 代表句子的结束符, 说明解码结束, 预测结束.

2 小结

  • 在Transformer结构中的Decoder模块的输入, 区分于不同的Block, 最底层的Block输入有其特殊的地方. 第二层到第六层的输入一致, 都是上一层的输出和Encoder的输出.

  • 最底层的Block在训练阶段, 每一个time step的输入是上一个time step的输入加上真实标签序列向后移一位. 具体来看, 就是每一个time step的输入序列会越来越长, 不断的将之前的输入融合进来.

  • 最底层的Block在训练阶段, 真实的代码实现中, 采用的是MASK机制来模拟输入序列不断添加的过程.

  • 最底层的Block在预测阶段, 每一个time step的输入是从time step=0开始, 一直到上一个time step的预测值的累积拼接张量. 具体来看, 也是随着每一个time step的输入序列会越来越长. 相比于训练阶段最大的不同是这里不断拼接进来的token是每一个time step的预测值, 而不是训练阶段每一个time step取得的groud truth值.

http://www.yayakq.cn/news/666944/

相关文章:

  • 营销网站排行网站建设方案报价
  • 上海快速建设网站公司wordpress如何添加注册登录
  • dedecms做论坛网站湘潭网站建设开发
  • 网站后台登录不进去北京市文化局政务网站建设项目
  • 专注网站建设11年安徽网新科技有限公司官网
  • 一个虚拟空间可以放几个网站网页设计一般用什么软件
  • 公司做网站那个网站好莱芜网页制作公司
  • 网站 橙色公司网站建设设计公司哪家好
  • 做网站番禺开发公司移交物业资料
  • 现在网站尺寸国内低代码开发平台
  • 全英文外贸网站建设wordpress没有底部
  • 怎么查看网站的ftp全网营销包括什么
  • 网站城市分站是怎么做的申请网页空间
  • 网站制作行业用dw制作网页步骤
  • 企业网站空间多大合适wordpress 主题 导出
  • 做公司网站有什么猫腻站长工具seo综合查询可以访问
  • 电商网站开发多少钱百度找不到我的网站了
  • 做原创的网站wordpress 页面分级
  • 点开图片跳到网站怎么做django电影网站开发
  • 免费网站制造网页设计与制作专业介绍
  • 郑州便宜网站建设公司金州新区规划建设局网站
  • 科技风格设计网站优质做网站价格
  • 网站后台关键词wordpress 漫画插件
  • 网站网站平台建设方案如何建立一个网站链接把文件信息存里
  • 网站建设和管理的总结怎么写江西东乡网站建设
  • 沈阳网站建设模块维护搜索关键词是什么意思
  • 沈阳网站哪家公司做的好昆山网页设计报价
  • 湖北民族建设集团网站首页网站可以做多语言的吗
  • 科讯网站发布文章企业建站项目
  • 怎么打开文件做的网站wordpress连接微信支付