当前位置: 首页 > news >正文

泰安建设厅网站老鬼seo

泰安建设厅网站,老鬼seo,文字生成图片,医院网站实例本文将按照transformer的结构图依次对各个模块进行讲解: 可以看一下模型的大致结构:主要有encode和decode两大部分组成,数据经过词embedding以及位置embedding得到encode的时输入数据 输入部分 embedding就是从原始数据中提取出单词或位置&…

本文将按照transformer的结构图依次对各个模块进行讲解:

可以看一下模型的大致结构:主要有encode和decode两大部分组成,数据经过词embedding以及位置embedding得到encode的时输入数据

输入部分

  1. embedding就是从原始数据中提取出单词或位置;

输入矩阵:

位置编码采用如下公式

  • 好处有使 PE 能够适应比训练集里面所有句子更长的句子,假设训练集里面最长的句子是有 20 个单词,突然来了一个长度为 21 的句子,则使用公式计算的方法可以计算出第 21 位的 Embedding。
  • 可以让模型容易地计算出相对位置,对于固定长度的间距 k,PE(pos+k) 可以用 PE(pos) 计算得到。因为 Sin(A+B) = Sin(A)Cos(B) + Cos(A)Sin(B), Cos(A+B) = Cos(A)Cos(B) - Sin(A)Sin(B)。

encode里有6个encode块,每一个块里包含了一个自注意层、残差以及归一化、前向传播层、残差及归一化构成

attention结构

计算公式

我们可以理解为搜索引擎:q就是你要搜索的关键字,k就是各个词条的标题,而v就是词条的全文,最后得到attention的就是与你想要搜索的关键字的相关程度,注意力分数是query和key的相似度,注意力权重是分数的softmax结果。

多头机制

并行堆叠attention,主要目的是为了增强模型对输入序列的表示能力和建模能力。多头自注意力允许模型同时关注输入序列中的不同位置和不同关系,从而提高了模型对序列中的长距离依赖关系和语义关系的建模能力。

Add & Norm

Add & Norm 层由 Add 和 Norm 两部分组成。Add 类似ResNet提出的残差连接,以解决深层网络训练不稳定的问题。Norm为归一化层,即Layer Normalization,通常用于 RNN 结构。

Feed Forward

Feed Forward 层比较简单,由两个全连接层构成,第一层的激活函数为 ReLu,第二层不使用激活函数,对应的公式如下。

(max(0,XW1+b1))W2+b2

对于输入X,Feed Forward 最终得到的输出矩阵的维度与输入X一致

解码模块

与encode最主要的区别就是多了一个带mask的多头注意力,在训练的过程中采用了teacher forcing(即将正确的序列也送入),但是为了不让模型提前知道将要预测的句子,采用了掩码

三种attention

文章一开始解释了Self-Attention和Multi-Head Attention。通过对Transformer模型的深入解读,可以看到,模型一共使用了三种Multi-Head Attention:

1)Encoder Block中使用的Attention。第一个Encoder Block的Query、Key和Value来自训练数据经过两层Embedding转化,之后的Encoder Block的Query、Key和Value来自上一个Encoder Block的输出。

2)Decoder Block中的第一个Attention。与Encoder Block中的Attention类似,只不过增加了Mask,在预测第 ii个输出时,要将第i+1i+1 之后的单词掩盖住。第一个Decoder Block的Query、Key和Value来自训练数据经过两层Embedding转化,之后的Decoder Block的Query、Key和Value来自上一个Decoder Block的输出。

  1. Decoder Block中的第二个Attention。这是一个 Encoder-Decoder Attention,它建立起了 Encoder 和 Decoder 之间的联系,Query来自第2种 Decoder Attention的输出,Key和Value 来自 Encoder 的输出。

总结:

1)通常情况下,embedding嵌入向量被训练为捕捉单词之间的语义和语法关系;

2)tokenize操作就是把句子切分成单词和标点符号即可,同时对其进行序列转化;

 参考博文:

自注意力:

Attention 注意力机制 | 鲁老师

transformer:

Transformer | 鲁老师gggT

http://www.yayakq.cn/news/332126/

相关文章:

  • 国外网站空间租用哪个好做暧暖ox免费视频网站
  • 做动画 的 网站网站开发与黑客
  • 北京建设工程主管部门网站视频app推广
  • 珠海网站开发品牌型网站制作价格
  • 做地方网站论坛网店推广新技术
  • 可以自己做网站的软件下载公司网页制作报价
  • 广州网站建设360网站优化郑州市男科医院哪比较好
  • 盐城网站推广哪家好简述网站规划的流程
  • 广告平台网站有哪些wordpress短信回复
  • 苏州微网站建设对网站建设展望
  • 全国网站联盟无锡seo培训
  • 网站建设入什么费用哪方面的网站
  • 苏州网站建设推荐q479185700霸屏微信网站建设开发
  • 省住房城乡建设厅门户网站wordpress 快讯
  • 如何做指数交易网站化工原材料网站建设
  • .net网站开发过程怎么申请公司注册
  • 网站后端开发软件全球域名查询
  • 建立网站方法网站开发培训班
  • 网站域名使用方法成都网站设计公司排名
  • 做外汇的官方网站做汽车导航仪在什么网站找客户
  • 设计公司logo网站沈阳建站模板
  • 手机版网站建设百度账号管理
  • 做网站给菠菜引流网页编辑框
  • 主题公园旅游景区网站建设福州网页
  • jsp网站开发实例标题栏哈尔滨大型网站设计公司
  • 网站字体怎么设置网站添加百度地图
  • wordpress 文章 idseo公司是怎么做的
  • 网站首页设计大赛排名点击工具
  • 网站设计细节深圳网站建设seo优化
  • 迈肯奇迹做网站宁波网站制作首推蓉胜网络好