当前位置: 首页 > news >正文

自己做的网站标题百度运营公司

自己做的网站标题,百度运营公司,外国人做的网站,在线设计软件网站GLM paper:https://arxiv.org/pdf/2103.10360.pdfchatglm 130B:https://arxiv.org/pdf/2210.02414.pdf 前置知识补充 双流自注意力 Two-stream self-attention mechanism(双流自注意机制)是一种用于自然语言处理任务的注意力机制…
  • GLM paper:https://arxiv.org/pdf/2103.10360.pdf
  • chatglm 130B:https://arxiv.org/pdf/2210.02414.pdf

前置知识补充

双流自注意力

Two-stream self-attention mechanism(双流自注意机制)是一种用于自然语言处理任务的注意力机制。它是基于自注意力机制(self-attention)的扩展,通过引入两个独立的注意力流来处理不同类型的信息。

  • 在传统的自注意力机制中,输入序列中的每个位置都会计算一个注意力权重,用于对其他位置的信息进行加权聚合。而在双流自注意力机制中,会引入两个注意力流,分别用于处理不同类型的信息。

  • 双流自注意力,一个注意力流用于处理位置信息(position-based),另一个注意力流用于处理内容信息(content-based)。位置信息可以帮助模型捕捉序列中的顺序和结构,而内容信息可以帮助模型理解不同位置的语义关联

    • 具体来说,双流自注意力机制会为每个注意力流维护一个独立的注意力矩阵,用于计算注意力权重。然后,通过将两个注意力流的输出进行加权融合,得到最终的注意力表示。
    • 通过引入两个注意力流,双流自注意力机制可以更好地捕捉不同类型信息之间的关系,提高模型在语义理解和推理任务中的性能。它在机器翻译、文本分类、问答系统等任务中都有应用,并取得了一定的效果提升。

Transformer修改

层归一化是一种归一化技术,用于在网络的每一层对输入进行归一化处理。它可以帮助网络更好地处理梯度消失和梯度爆炸问题,提高模型的训练效果和泛化能力。

残差链接是一种跳跃连接技术,通过将输入直接添加到网络的输出中,使得网络可以学习残差信息。这有助于网络更好地传递梯度和学习深层特征,提高模型的训练效果和收敛速度。

在一般情况下,层归一化应该在残差链接之前应用。这是因为层归一化对输入进行归一化处理,而残差链接需要将输入直接添加到网络的输出中。如果将残差链接放在层归一化之前,会导致输入的归一化被破坏,从而影响模型的训练和性能。


关键术语

MLM:条件独立性假设,预测每个mask的时候是并行的,没有考虑mask之间的关系
Mask:一个单词一个mask,mask可以知道长度信息
Span:几个单词(或者更多个)一起mask掉,span不知道长度信息

把标签映射成词语,进行分类:

  • 标成mask,放在最后一个位置,X和Y可以形成一个流畅的语句,接近于自然语言

GLM

GLM是一种基于Transformer的语言模型,它以自回归空白填充为训练目标。

对于一个文本序列 x = [ x 1 , ⋅ ⋅ ⋅ , x n ] x=[x1, · · · ,xn] x=[x1,⋅⋅⋅,xn],从其中采样文本span{s1,· · ·,sm},其中每个si表示连续令牌的跨度,并用单个掩码替换si,要求模型对它们进行自回归恢复。

与GPT类模型不同的是,它在不Mask的位置使用双向注意力,因此它混合了两种Mask,以支持理解和生成:

[MASK]:句子中的短空白,长度加总到输入的某一部分
[gMASK]:随机长度的长空白,加在提供前缀上下文的句子末尾


GLM130B

1)架构选择

通用语言模型GLM

组件改进:旋转位置编码、DeepNorm、GeGLU

2)工程实现

并行策略:数据、张量、流水线3D并行

多平台高效适配

3)训练策略改进

梯度爆炸的问题,采用了嵌入层梯度缩减策略

解决注意力数值溢出问题,采用了FP32的softmax计算策略,训练稳定性有提升


http://www.yayakq.cn/news/405980/

相关文章:

  • 平台式网站模板同城信息发布平台
  • 淘宝客优惠券网站建设wordpress主题设置插件
  • 做网站营销公司排名本地网站地图生成器
  • 郑州公司做网站汉狮wordpress怎么放视频教程
  • 镇江个人网站制作网站没域名
  • 在线观看免费网站网址企业网站备案时间
  • 上海专业网站营销seo单页面优化
  • 上海做网站比较有名的公司有哪些vps主机上搭建网站
  • 相亲网站上做it的骗术如何创建企业网站
  • 网站建设相关福建住房和城乡建设局网站
  • 东莞城乡建设网站企业网是什么意思
  • 专门做处理货的网站兰州专业做网站的公司有哪些
  • 您的网站空间已过期分类网站上怎么做锚文本
  • 网站都是什么软件做的刷赞网站建设
  • vs做的网站源代码it运维需要学哪些知识
  • 河南郑州百度网站建设有哪些网站可以做兼职
  • 手机app微信网站建设男女做羞羞羞的网站
  • 盐城高端网站建设做游戏陪玩网站
  • 一键生成网站的软件温岭企业网站建设公司
  • wordpress建站平台怎样做网站开发
  • 东平专业的网站制作做零售去哪个外贸网站
  • 企业营销策划 网站建设做书的网站
  • 宁夏网站开发wordpress更改网站内容
  • 网站制作如皋公司网站设计规划
  • 企业网站如何做网警备案wordpress微名片模板
  • 网站音乐播放代码旅游网站制作视频百度云
  • 备案资料网站查询小型app开发公司
  • 运城做网站哪家好jsp鲜花网站开发源代码
  • 怎样建立个人网站?如何给国外网站做seo
  • 旅游电子商务网站建设技术规范广告联盟广告点击一次多少钱