当前位置: 首页 > news >正文

做公司子网站的请示报告邢台做网站信息

做公司子网站的请示报告,邢台做网站信息,小游戏代理平台,公司做网站自己注册域名DeepSeek-V3网络架构的创新主要在两次,分别是在前馈层的MOE(混合专家模型)和在注意力中的MHA(多头潜在注意力,一种注意力计算规模压缩技术)。 MOE(混合专家模型) 回顾最初的MOE GS…

DeepSeek-V3网络架构的创新主要在两次,分别是在前馈层的MOE(混合专家模型)在注意力中的MHA(多头潜在注意力,一种注意力计算规模压缩技术)。

MOE(混合专家模型)

回顾最初的MOE

GShard是最早将MoE应用在Transformer上的模型,其提出的框架和思想一直影响至今。

回顾Transformer的前馈层FFN,是将注意力子层的输出作为输入,通过一个带有ReLU激活函数的两层全连接网络对输入进行更复杂的非线性变换,公式描述如下:

FFN ( x ) = ReLU ( x W 1 + b 1 ) W 2 + b 2 \text{FFN}(x)=\text{ReLU}(xW_1+b_1)W_2+b_2 FFN(x)=ReLU(xW1+b1)W2+b2

MoE其实就是将Transformer中的FFN层替换成了MoE-layer(也可以理解成多个规模较小且稀疏的FFN层),其中每个MoE-Layer由一个gate和若干个experts组成。这里gate和每个expert都可以理解成是nn.linear形式的神经网络,图解如下:
(原图来自https://zhuanlan.zhihu.com/p/681154742)

DeepSeek中的MOE

模型架构:

不同的地方:

为了在负载均衡和模型性能之间取得更好的平衡,DeepSeek开创了一种无辅助损失的负载均衡策略:为每个专家引入一个偏差项,并将其添加到相应的亲和力分数中以确定top- K K K路由,具体来说:如果其对应的专家过载,我们将偏差项减少 b b b;如果其对应的专家负载不足,我们将偏差项增加 b b b,其中 b b b是一个称为偏差更新速度的超参数。

门控网络本质上就是一个softmax叠加一个分类网络,那么辅助loss往往就是添加一个惩罚项,对输出过大的 logits 进行惩罚,鼓励模型生成更加适度的 logits 值,防止模型生成过于极端的输出

公式描述为公式(14)改为公式(16)

引入了偏差项

MLA 多头潜在注意力

本质就是在计算注意力之前进行各种向量降维(用于降低注意力计算和后端推理的计算量)和加入旋转位置编码(RoPE)(目的是:通过旋转矩阵将位置信息融入词向量的内积计算中,从而在注意力机制中隐式编码相对位置关系)。

参考文章

https://zhuanlan.zhihu.com/p/15153745590

https://arxiv.org/pdf/2412.19437v1

https://zhuanlan.zhihu.com/p/681154742

http://www.yayakq.cn/news/430014/

相关文章:

  • 去哪学做网站软件开发外包管理
  • 网站建设中备案网页模板
  • 自己做电影资源网站桂林市卫生学校
  • 电子网站建设实训外贸上哪个网站开发客户
  • 网站建设域名的购买长春新冠最新情况
  • 旅游网站建设分析 需求优化大师软件下载
  • 有做兼职赚钱的网站吗家装设计方案ppt案例
  • 靖边县建设局网站网站建设详细的步骤有哪些
  • 杭州会做网站网站数据做面板分析
  • 使用wordpress的建网站不锈钢网站建设
  • asp与php做网站哪个好百度地图怎么使用实景导航
  • app手机网站模板免费下载企业公司名字大全
  • 个人博客网站开发背景论文网络服装网站建设
  • 天津网站建设制作设计通州网站建设电话
  • 朔州企业网站建设整站优化包年
  • seo怎么优化网站排名闲鱼网站建设费用
  • 做网站备案是承诺书在哪下载做网站时用插件需要注明吗
  • 网站访问量咋做网站模版怎样使用
  • 成品网站分享一下济南做网站比较好的公司有哪些
  • 棋牌网站搭建公司搬家公司价目表
  • dw6做网站淘宝网站建设的详细策划
  • 永兴集团网站怎样建设有价值的网站
  • 做网站需要哪些参考文献教育 高校 网站模板
  • 网站页面做成自适应优缺点职业教育网站建设
  • 网站风格发展趋势深圳做app网站设计
  • 国内网站有哪些如何申请一个网站空间
  • j2ee网站开发实例网店推广的作用是选择题
  • php网站开发系统小程序开发平台需要多少钱
  • 成都著名网站建设公司互联网保险的运营模式
  • 网站设计开户宿迁手机网站开发公司