当前位置: 首页 > news >正文

招标网址网站大全自已如何做网站

招标网址网站大全,自已如何做网站,网站公司建设都招聘那些职位,cn体育门户网站源码(asp基础篇:Transformer 引言模型基础架构原论文架构图EmbeddingPostional EncodingMulti-Head AttentionLayerNormEncoderDecoder其他 引言 此文作者本身对transformer有一些基础的了解,此处主要用于记录一些关于transformer模型的细节部分用于进一步理解其具体的实现机…

基础篇:Transformer

  • 引言
  • 模型基础架构
    • 原论文架构图
    • Embedding
    • Postional Encoding
    • Multi-Head Attention
    • LayerNorm
    • Encoder
    • Decoder
    • 其他

引言

此文作者本身对transformer有一些基础的了解,此处主要用于记录一些关于transformer模型的细节部分用于进一步理解其具体的实现机制,输入输出细节,以及一些理解.此文会不定期更新用于记录新学习到的知识.

模型基础架构

原论文架构图

首先给出的是原论文 Attention is all you need中的架构图,我们会在这个篇章部分分列模型pipeline中的各个部件。在最后给出关于这个模型图中没有的细节补充。

论文原图

Embedding

其使用的是nn.embedding来进行初始化,根据词表里的数量和设置的隐层维度来初始化,可训练。(**TODO:**这里会存在词表的初始化问题,即分词方法,在后续介绍)

Postional Encoding

两种编码方式,learned PE是绝对位置编码,即直接随机初始化一个可训练的参数;Sinusoidal PE为相对位置的三角编码,首先根据位置pos和隐层维度位置i得到embedding值
f ( p o s , i ) = s i n ( p o s 1000 0 i N ) i f i 为奇数   e l s e c o s f(pos,i)=sin(\frac{pos}{10000^{\frac{i}{N}}}) \ \ \ \ if\ \ i为奇数\ \ else\ \ cos f(pos,i)=sin(10000Nipos)    if  i为奇数  else  cos

Multi-Head Attention

单头attention 的 Q/K/V 的shape和多头attention 的每个头的Qi/Ki/Vi的大小是不一样的,假如单头attention 的 Q/K/V的参数矩阵WQ/WK/WV的shape分别是[512, 512] (此处假设encoder的输入和输出是一样的shape),那么多头attention (假设8个头)的每个头的Qi/Ki/Vi的参数矩阵WQi/WKi/WVi大小是[512, 512/8].

LayerNorm

BatchNorm本质是对同一个批次中,每一个数据样本的不同通道求均值方差,通道之间不进行交互,并通过滑动动量平均的方式将批次的均值方差记录下来用于推理。BN相对更适合在数据批次上具有统计意义的问题,其会抹平特征之间的差异,保留样本之间的大小关系。而在NLP任务当中,每个句子内部的特征大小关系才是需要保留的,不同句子之间关联不大,因此抹平样本之间的大小关系更为合适。

Encoder

Encoder一般包含两部分,self-attention和feed-forward。每一层Encoder都有独立的一组权重参数。最后一层Encoder得到的Wk,Wv用于计算Decoder的cross-attention。

Decoder

Decoder一般包含三个部分,self-attention, encoder-decoder-attention和feed-forward。在这里和这里有一些关于Decoder实际部署时的运行细节。

在训练的时候,Decoder通过mask得到ground truth的shift-right的下三角矩阵,对于位置t,其拥有前t-1个时刻的所有信息,之后计算矩阵得到该位置的output,该output和同位置的ground truth计算损失(即teach forcing的方法)。在推理时,通过padding一个一个输入,但只取最后一个时刻的output作为全局的预测结果,因此可能存在非对应位置最优解(即beam search)。

其他

  • 编码层解码层堆栈:事实上encoder和decoder是可以进行stack的,原论文图中只展示了一层,其实际实现逻辑是下图。
    在这里插入图片描述
  • transformer只能够处理定长输入和定长输出,对于长度不定的数据,通过padding -INF等方法来进行补全,由于softmax的存在这些会约等于0。
http://www.yayakq.cn/news/556050/

相关文章:

  • 电商 网站模板制作付款网站
  • 网站为什么百度搜不到了商城手机网站建设多少钱
  • 网站要背代码?网站设计开发网站
  • 浙江建设网站公司wordpress 文章带字段
  • 餐饮网站建设公司大连甘井子区
  • 有需要做网站的吗建筑模板是怎么做成的
  • 建站平台那个好响应式网站 英文
  • 网站建设标准简约网站建设及相关流程
  • 网站设网站设计网络舆情分析报告模板
  • 如何创建一个和淘宝一样的网站网站建设佰金手指科杰二六
  • 网站建设的报价单小型购物网站建设
  • 旅游网站建设最重要的流程如何制作网站最简单的方法
  • 张家港网站开发客户管理软件crm排名
  • 快速做网站公司哪家专业wordpress用户名钩子
  • 做网站要考虑的问题上海发布官网app
  • 有什么在线做文档的网站可以直接玩游戏的网址
  • 68个偏门暴利项目免费seo关键词优化服务
  • 做网站免费搭建对网站做数据统计的目的是什么意思
  • 网站源码调试微信开发者文档官网
  • 重庆秀山网站建设费用登录wordpress数据库
  • 社交网站建设技术建筑工程管理适合女生吗
  • 长春网站推广网诚传媒html网页游戏制作
  • 网站建设起来还需要花钱吗上海什么公司最有名
  • 德州市住房和城乡建设部网站住房及城乡建设部网站
  • 怎么找到网站的空间服务商发稿推广
  • 做网站哪个服务商便宜百度链接提交入口
  • 做网站腾讯云服务器吗WordPress有哪些优秀主题
  • 如何写手机适配网站c可以做网站么
  • 响应式网站设计软件wordpress计算器代码
  • 100个有趣的网站icp备案网站