当前位置: 首页 > news >正文

保山公司网站建设启蒙自助建站

保山公司网站建设,启蒙自助建站,南京seo关键词优化资讯,吴江seo网站优化软件一、原因 神经网络梯度 假设现在有一个 层的神经网络,每层的输出为一个对输入作 变换的函数结果 用 来表示第 层的输出,那么有下列公式: 链式法则计算损失 关于某一层某个参数 的梯度: 注意到, 为向量&am…

一、原因

神经网络梯度

· 假设现在有一个 d 层的神经网络,每层的输出为一个对输入作 f_t 变换的函数结果

· 用 h^t 来表示第 t 层的输出,那么有下列公式:

h^t = f_t(h^{t-1})

· 链式法则计算损失 l 关于某一层某个参数 w_t 的梯度:

\frac{\partial l}{\partial w_t}=\frac{\partial l}{\partial h^d}\frac{\partial h^d}{\partial h^{d-1}}...\frac{\partial h^t}{\partial w_t}

· 注意到,h^t 为向量,这相当于一个 d-t 次的矩阵乘法

这个传递可能造成以下问题:

· 假设每次的梯度为1.5,但随着神经网络的规模变大,往后传递过去可能就有 1.5^{100}=4*10^{17} 这么大,从而产生梯度爆炸。

· 假设每次的梯度为0.8,同样的道理,传递过去可能有 0.8^{100}=2*10^{-10} 这么小,从而使模型最后的变化幅度很小,出现梯度消失。

二、梯度消失

假设用sigmoid函数作为激活函数

· 导数的问题是,当输入相对较大或者较小时,求导计算之后,每次向上传递的梯度会变得很小

· 累乘起来之后,这个值可能就会变得更小

可能造成的问题:

· 梯度值非常接近0,使得模型无法训练,每次训练改变幅度非常小

· 在神经网络较深时,对于底部层尤为严重

        · 反向传播时,顶部的训练可能较好,拿到的梯度较正常

        · 越到底部,梯度越小,底部层无法训练,使得神经网络无法变深

三、梯度爆炸

假设我们使用ReLU函数作为隐藏层的激活函数

· ReLU激活函数的导数会使大于0的输出求导后都是1,小于等于0的输出求导后都是0

· 首先将链式法则的求导公式代入ReLU激活函数转化一下,得到下式

· 这时,h^{t-1} 与 w_t 相乘后再在ReLU函数里求导的结果就是0或1,那么每次传递的就是 w_t 转置值

· 如果中间层 d-t 很大,那么最后累乘的结果就会很大,最终导致梯度爆炸

可能造成的问题:

· 值超过上限(如16位浮点数,可能数值上溢)

· 对学习率非常敏感

        · 若学习率较大—大参数值—更大的梯度

        · 若学习率较小—训练效果小

        · 需要不断调整学习率

http://www.yayakq.cn/news/191682/

相关文章:

  • 框架网站怎么做网站建设收费标准讯息
  • 城建道桥建设集团网站毕设做购物网站系统的原因
  • 龙华专业做网站布展设计公司排名
  • 石家庄网站开发与优化缔造自助建站
  • 嵌入式转行到网站开发wordpress 数据库备份插件下载
  • 临沂建设局网站官网微信系统开发技术
  • pathon能做网站开发吗庆阳网站设计制作
  • 手机网站安装怎么下载自己做的网站
  • 什么类型的网站展厅设计服务商
  • 网站建设的销售是怎么样的全球最大的网络公司排名
  • 模型网站大全免费wordpress博客功能
  • 南丰网站建设网站建设合同书模板
  • 网站平台推广方案建站平台 在线提交表格
  • 自己做产品品牌网站万众城网站建设
  • 可信网站证书软件项目报价
  • 长沙餐饮设计公司西安seo排名优化推广价格
  • 网站开发是否属于无形资产wordpress汉化服务
  • 自贡网站建设哪家好定制微信小程序价格
  • 前几年做那些网站能致富小白怎么学室内设计
  • 厦门网站建设方案开发注册公司需要怎么注册
  • 专门装修的网都有什么网网站如何建造网站链接
  • 网站建设公司怎么运营网站建设的项目方案
  • 做口碑都有哪些网站ui设计手机交互界面下载
  • 哪个网站可以做体育主播河南省新闻出版学校咋样
  • 做网站多少网站开发制作公司排行
  • wordpress新建模板蚌埠网站优化制作公司
  • 网站模版 拓安卓android官网下载
  • 网站前台管理系统wordpress举报插件
  • 网站建设运营怎么办wordpress转换成dede
  • 旅游网站开发近五年参考文献免费软件下载中心