当前位置: 首页 > news >正文

郑州网站推广优化12580黄页推广

郑州网站推广优化,12580黄页推广,一个简单的个人主页,做商城网站的公司推荐本文将按照transformer的结构图依次对各个模块进行讲解: 可以看一下模型的大致结构:主要有encode和decode两大部分组成,数据经过词embedding以及位置embedding得到encode的时输入数据 输入部分 embedding就是从原始数据中提取出单词或位置&…

本文将按照transformer的结构图依次对各个模块进行讲解:

可以看一下模型的大致结构:主要有encode和decode两大部分组成,数据经过词embedding以及位置embedding得到encode的时输入数据

输入部分

  1. embedding就是从原始数据中提取出单词或位置;

输入矩阵:

位置编码采用如下公式

  • 好处有使 PE 能够适应比训练集里面所有句子更长的句子,假设训练集里面最长的句子是有 20 个单词,突然来了一个长度为 21 的句子,则使用公式计算的方法可以计算出第 21 位的 Embedding。
  • 可以让模型容易地计算出相对位置,对于固定长度的间距 k,PE(pos+k) 可以用 PE(pos) 计算得到。因为 Sin(A+B) = Sin(A)Cos(B) + Cos(A)Sin(B), Cos(A+B) = Cos(A)Cos(B) - Sin(A)Sin(B)。

encode里有6个encode块,每一个块里包含了一个自注意层、残差以及归一化、前向传播层、残差及归一化构成

attention结构

计算公式

我们可以理解为搜索引擎:q就是你要搜索的关键字,k就是各个词条的标题,而v就是词条的全文,最后得到attention的就是与你想要搜索的关键字的相关程度,注意力分数是query和key的相似度,注意力权重是分数的softmax结果。

多头机制

并行堆叠attention,主要目的是为了增强模型对输入序列的表示能力和建模能力。多头自注意力允许模型同时关注输入序列中的不同位置和不同关系,从而提高了模型对序列中的长距离依赖关系和语义关系的建模能力。

Add & Norm

Add & Norm 层由 Add 和 Norm 两部分组成。Add 类似ResNet提出的残差连接,以解决深层网络训练不稳定的问题。Norm为归一化层,即Layer Normalization,通常用于 RNN 结构。

Feed Forward

Feed Forward 层比较简单,由两个全连接层构成,第一层的激活函数为 ReLu,第二层不使用激活函数,对应的公式如下。

(max(0,XW1+b1))W2+b2

对于输入X,Feed Forward 最终得到的输出矩阵的维度与输入X一致

解码模块

与encode最主要的区别就是多了一个带mask的多头注意力,在训练的过程中采用了teacher forcing(即将正确的序列也送入),但是为了不让模型提前知道将要预测的句子,采用了掩码

三种attention

文章一开始解释了Self-Attention和Multi-Head Attention。通过对Transformer模型的深入解读,可以看到,模型一共使用了三种Multi-Head Attention:

1)Encoder Block中使用的Attention。第一个Encoder Block的Query、Key和Value来自训练数据经过两层Embedding转化,之后的Encoder Block的Query、Key和Value来自上一个Encoder Block的输出。

2)Decoder Block中的第一个Attention。与Encoder Block中的Attention类似,只不过增加了Mask,在预测第 ii个输出时,要将第i+1i+1 之后的单词掩盖住。第一个Decoder Block的Query、Key和Value来自训练数据经过两层Embedding转化,之后的Decoder Block的Query、Key和Value来自上一个Decoder Block的输出。

  1. Decoder Block中的第二个Attention。这是一个 Encoder-Decoder Attention,它建立起了 Encoder 和 Decoder 之间的联系,Query来自第2种 Decoder Attention的输出,Key和Value 来自 Encoder 的输出。

总结:

1)通常情况下,embedding嵌入向量被训练为捕捉单词之间的语义和语法关系;

2)tokenize操作就是把句子切分成单词和标点符号即可,同时对其进行序列转化;

 参考博文:

自注意力:

Attention 注意力机制 | 鲁老师

transformer:

Transformer | 鲁老师gggT

http://www.yayakq.cn/news/376427/

相关文章:

  • 广州品牌建站广州品牌建站代理公司是干什么的
  • 网站做淘客媒体查询做响应式网站有哪些
  • 打开一个不良网站提示创建成功建设网站技术数据策划书
  • 网站建设描述书长沙专业建设网站企业
  • 建设微信营销网站制作wordpress本地 域名绑定
  • 怎么样建立学校网站wordpress 分类文章列表分页
  • 北京互联网网站建设甘肃省住房与城乡建设厅网站
  • 公司网站制作要多少钱免费创建网站的平台
  • 新葡京网址网站建设wordpress 云空间 防盗链
  • 织梦cms建站最新引流渠道
  • 网站开发验收单源代码如何做网站
  • 做电子商城网站的微商分销系统软件开发
  • 怎么让自己的网站被百度收录网站查询 工信部
  • 网站管理系统四川兴昌建设有限公司网站
  • 我做的网站怎样推广的php网站数据库修改
  • 学校网站html模板怎么用wordpress建外贸网站
  • 用dw做电子商务网站步骤打开浏览器历史记录
  • 江油官方网站建设如何做网站栏目
  • 彩虹云商城网站搭建wordpress多梦主题
  • 上海华谊集团建设有限公司网站大连在哪个城市
  • 深圳大型网站设计公司网站空间ip查询
  • 网站建设与管理的通知广东今科网站建设
  • 网站规划与开发技术做的网站百度搜不到
  • 兰州商城网站建桂林网站开发
  • 做商城网站流程新网网站登录不上
  • php做网站优势h5模板制作软件
  • 建设银行客户端官方网站沛县互助网站开发
  • 网站内容填写服务营销
  • 租赁服务器东莞网络公司seo优化
  • 网站响应式建设自己做网站的过程