当前位置: 首页 > news >正文

邢台龙天网络科技有限公司郑州seo关键词推广

邢台龙天网络科技有限公司,郑州seo关键词推广,全屏网站 功能,电子商务基础知识一、原因 神经网络梯度 假设现在有一个 层的神经网络,每层的输出为一个对输入作 变换的函数结果 用 来表示第 层的输出,那么有下列公式: 链式法则计算损失 关于某一层某个参数 的梯度: 注意到, 为向量&am…

一、原因

神经网络梯度

· 假设现在有一个 d 层的神经网络,每层的输出为一个对输入作 f_t 变换的函数结果

· 用 h^t 来表示第 t 层的输出,那么有下列公式:

h^t = f_t(h^{t-1})

· 链式法则计算损失 l 关于某一层某个参数 w_t 的梯度:

\frac{\partial l}{\partial w_t}=\frac{\partial l}{\partial h^d}\frac{\partial h^d}{\partial h^{d-1}}...\frac{\partial h^t}{\partial w_t}

· 注意到,h^t 为向量,这相当于一个 d-t 次的矩阵乘法

这个传递可能造成以下问题:

· 假设每次的梯度为1.5,但随着神经网络的规模变大,往后传递过去可能就有 1.5^{100}=4*10^{17} 这么大,从而产生梯度爆炸。

· 假设每次的梯度为0.8,同样的道理,传递过去可能有 0.8^{100}=2*10^{-10} 这么小,从而使模型最后的变化幅度很小,出现梯度消失。

二、梯度消失

假设用sigmoid函数作为激活函数

· 导数的问题是,当输入相对较大或者较小时,求导计算之后,每次向上传递的梯度会变得很小

· 累乘起来之后,这个值可能就会变得更小

可能造成的问题:

· 梯度值非常接近0,使得模型无法训练,每次训练改变幅度非常小

· 在神经网络较深时,对于底部层尤为严重

        · 反向传播时,顶部的训练可能较好,拿到的梯度较正常

        · 越到底部,梯度越小,底部层无法训练,使得神经网络无法变深

三、梯度爆炸

假设我们使用ReLU函数作为隐藏层的激活函数

· ReLU激活函数的导数会使大于0的输出求导后都是1,小于等于0的输出求导后都是0

· 首先将链式法则的求导公式代入ReLU激活函数转化一下,得到下式

· 这时,h^{t-1} 与 w_t 相乘后再在ReLU函数里求导的结果就是0或1,那么每次传递的就是 w_t 转置值

· 如果中间层 d-t 很大,那么最后累乘的结果就会很大,最终导致梯度爆炸

可能造成的问题:

· 值超过上限(如16位浮点数,可能数值上溢)

· 对学习率非常敏感

        · 若学习率较大—大参数值—更大的梯度

        · 若学习率较小—训练效果小

        · 需要不断调整学习率

http://www.yayakq.cn/news/699011/

相关文章:

  • php做的网站手机能看到如何上传自己的做的网站
  • 科技网站设计欣赏2021年经典营销案例
  • 给你一个网站怎么优化网站有哪些风格
  • 怎样建设外贸网站如何做网站美化
  • seo是网站搜索引擎上的优化青岛网站seo收费
  • 自己如何创建网站宁波微信推广平台哪个好
  • 西宁网站建设制作公司黑帽seo排名优化
  • 网站浮动qq安徽动漫公司 网站制作 安徽网新
  • 太原北京网站建设公司哪家好黄山企业网站建设
  • 网上报建贵州建设局网站深圳调查公司哪家好
  • 自己做的网站有排名吗电子商务系统包括
  • 高考写作网站可以用自己电脑做网站吗
  • 视频网站做板块栏目廊坊哪家公司做网站
  • 上海人才网官网招聘肖瑶自己网站怎么做优化
  • 台州快速建站公司crm外贸管理软件
  • 怎么在网站做推广电商网站建设 解决方案的设计
  • 石家庄学做网站建设培训学校谷歌商店下载
  • 网站建设公司兴田德润i简介深圳建设网站企业
  • 专业的网站建设收费标准安徽省和住房建设厅网站
  • 电商网站项目经验介绍ppt模板红色网站源码
  • 网站建设公司电话销售客源网络建设存在的问题
  • 商务贸易网站建设外贸网站每天多少ip
  • 中国建设人才网信息网站枣庄网站开发招聘
  • 网站建设公司 壹宇网络网站常用的优化方法
  • 公司网站开发费用家教网站怎么做
  • 做兼职的网站都有哪些工作内容深圳地图各区分布图
  • 网站开发安全需求什么叫效果图
  • 哪个浏览器可以做网站linux上传wordpress
  • 怎么建设网站临汾马蹄网室内设计
  • 小企业网站建设系统哪个好湖北设计公司