当前位置: 首页 > news >正文

编程培训机构排名南宁seo关键词排名

编程培训机构排名,南宁seo关键词排名,做网页的,龙华网站建设销售员SCAFFOLD: Stochastic Controlled Averaging for Federated Learning学习背景贡献论文思想算法局部更新方式全局更新方式实验总结背景 传统的联邦学习在数据异构(non-iid)的场景中很容易产生“客户漂移”(client-drift )的现象,这会导致系统的收敛不稳定或者缓慢。…

SCAFFOLD: Stochastic Controlled Averaging for Federated Learning学习

  • 背景
  • 贡献
  • 论文思想
  • 算法
  • 局部更新方式
  • 全局更新方式
  • 实验
  • 总结

背景

传统的联邦学习在数据异构(non-iid)的场景中很容易产生“客户漂移”(client-drift )的现象,这会导致系统的收敛不稳定或者缓慢。

  • ps:联邦平均算法相比传统的集中式训练,其loss会更高,并且相关的测试精度也明显低一些。部分研究工作解释为这是一个Client-drift的问题,即客户端漂移,联邦学习每个客户端的数据是非独立同分布的,各个客户端在本地训练的过程中,每个方向要与集中式训练,或者与最优的方向存在一定的偏差。联邦学习只是简单的平均,与理想的优化方向是存在一定的偏差,所以才会导致性能的下降。

贡献

  • 提出了考虑到client sampling和数据异构的一个更接近的收敛边界
  • 证明即便没有client sampling,使用全批次梯度(full batch gradients),传统的FedAvg依旧会因为client-drift而比SGD收敛速度更慢
  • 提出Stochastic Controlled Averaging algorithm(SCAFFOLD),目的便是为了解决client-drift的问题,并证明了SCAFFOLD算法在数据异构的情况下收敛速度至少和SGD一样快
  • SCAFFOLD算法还可以利用client之间的相似度来减少通信开销
  • 证明了SCAFFOLD算法不会被client sampling所影响,这使得SCAFFOLD算法更适合联邦学习

论文思想

传统联邦学习的方法FedAvg算法在异构数据集上表现不好的原因是有一些client会带偏整个系统的收敛结果,如下图所示:

在这里插入图片描述
在上图中,黑色点是全局模型,也就是每个训练轮次各个局部模型的“训练起点”,假设在某一轮训练中,服务器选择了client1和client2两个客户端来训练,然后client1是偏离整个系统的客户端,那么在客户端上训练三个轮次中,我们可以看到client1上的局部模型已经偏离了训练的方向(x* 所在的方向),然后聚合得到的server model也会稍微偏离x*,使得系统向着偏离学习模型的方向上收敛。最终的结果不是造成整个系统的性能下降就是导致整个系统收敛缓慢

为了解决这个问题,论文使用一个“控制变量”(control variate)c来“纠正”系统训练的方向,在client对模型进行更新的时候,也会对该变量进行更新

算法

与传统的联邦学习类似,SCAFFOLD算法也分为三个主要的部分:

  • 局部更新模型(local updates to the client model)
  • 局部更新控制变量(local updates to the client control variate)
  • 对局部的更新进行聚合

先给出算法的流程,后面再做出解释:
在这里插入图片描述

算法具体流程:

在这里插入图片描述

局部更新方式

SCAFFOLD算法在局部的更新方式是:
在这里插入图片描述

其中控制变量c的作用很明显,便是用全局模型的知识去约束局部模型的训练,以防止其偏离系统的正确训练方向,如下图所示:

在这里插入图片描述

并且该控制变量也会更新,以下面的方式:
在这里插入图片描述

论文给给出了上面两种更新方式的选择,其中第一种是用局部的梯度来更新全局模型中的控制变量c,第二种复用了全局模型的知识,直观上理解是根据全局模型与局部模型的差异来更新c。论文中给出的上面两种选择的区别是第一种方法要更稳定,第二种方法更加取决于应用场景,但是第二种方法更容易计算并且在通常情况下也已经足够优秀

全局更新方式

对于模型的更新与传统联邦并无太大区别:
在这里插入图片描述

控制变量的更新:
在这里插入图片描述

控制变量的更新方法也是和模型的更新方法差不多,本质上都是将局部模型的知识更新传递到全局模型

实验

实验在EMNIST数据集上进行,结果证明了SCAFFOLD算法与FedAvg算法和FedProx算法相比是表现最好的,如下图所示:

在这里插入图片描述

上面的3幅图表示的是SGD和FedAvg的比较实验,可以看到当梯度差异(G)很小是,FebAvg在训练刚刚开始的时候要比SGD好,但是在当G比较大的时候,由于客户容易发生“客户漂移”现象,容易带偏系统的训练方向,因此收敛效果和速度都会变差。下面的3幅图表示的是论文提出的算法Scaffold与SGD的比较,可以看到Scaffold算法无论是收敛速度和效果都比SGD要好

总结

论文的一个基本思想本质上便是用全局模型的知识去限制局部模型的训练方向,以防止那些与全局模型相差较大的局部模型带偏整个系统的训练方向

http://www.yayakq.cn/news/547366/

相关文章:

  • 网站怎么做让PC和手机自动识别wordpress导出数据库
  • 手机网站策划书四川建设厅网站施工员证查询
  • 网站这么设置微信支付宝企业sns网站需求
  • 图书网站开发背景wordpress互联网访问
  • 最火的深圳网站建设vue.js和vs做网站比较
  • 微信文件传输助手网页版seo和sem推广
  • 哪里有网站开发网站 数据备份
  • 网站设计专业需要什么软件领手工在家做的网站2019
  • 佛山小学网站建设wordpress 获取分类下的文章
  • 不懂编程如何做网站傻瓜化免费自助建站
  • 广州公司摇号申请网站比较好的网站建设品牌设计
  • 给公司做的东西放到私人网站上聊城专业网站建设公司电话
  • 网站建设平台选择大气企业响应式网站
  • php做简单网站教程长春南关网站建设
  • 静态网站挂马属于网站建设过程规划和准备阶段的是
  • 服务器网站环境c 网站开发需要的技术
  • 做图表的网站wordpress 文字颜色
  • 专业做淘宝网站网络宣传网站建设定制
  • 上线了建站教程wordpress如何更改会员中心
  • 交易类网站建设百度推广账号注册流程
  • 龙海做网站费用做网站怎么选云主机
  • 深圳企业网站建设开发费用财务软件开发公司简介
  • 水果网站系统的建设与实现免费自助建站排名
  • 网站后台添加网页加速器怎么开
  • 网站优化多少钱遵义网站开发公司电话
  • 企业网站seo实网站备案信息被注销
  • 网站建设阶段性工作重点做 淘宝客最大的网站是叫什么名字
  • 江苏建设培训网站品牌营销推广策划方案
  • 做网站的费属于什么费用石家庄飞数科技
  • 网站建设分金手指专业十四简述网络营销的含义