当前位置: 首页 > news >正文

网站建设加盟wordpress 找回密码

网站建设加盟,wordpress 找回密码,asp 网站开发教程,网站建设的内容有哪些VPG算法 前言 首先来看经典的策略梯度REINFORCE算法: 在REINFORCE中,每次采集一个episode的轨迹,计算每一步动作的回报 G t G_t Gt​,与动作概率对数相乘,作为误差反向传播,有以下几个特点: …

VPG算法

前言

首先来看经典的策略梯度REINFORCE算法:

在这里插入图片描述

在REINFORCE中,每次采集一个episode的轨迹,计算每一步动作的回报 G t G_t Gt,与动作概率对数相乘,作为误差反向传播,有以下几个特点:

  • 每个时间步更新一次参数
  • 只有策略网络,没有价值网络
  • 计算 G G G时,仅仅采样了一条轨迹
  • 一般来说,计算 G G G时,从最后的时间步开始往前计算,这是为了节省计算量
  • G G G实际上类似于 Q Q Q函数,因为 Q Q Q函数就是动作价值回报的期望

VPG算法

全称:Vanilla Policy Gradient,但是属于Actor-Critic算法,因为它既有策略网络,又有价值网络

  • 每个episode更新一次参数
  • 上述伪代码中,计算 G G G时,采样了多个轨迹
  • 一般来说,计算 G G G时,从最后的时间步开始往前计算,这是为了节省计算量
  • Reward-to-go:即折扣因子 γ = 1 \gamma=1 γ=1 G t = R ^ t = r t + r t + 1 + … + r T G_t=\hat{R}_t=r_t+r_{t+1}+\ldots+r_T Gt=R^t=rt+rt+1++rT T T T为episode的长度
  • 通常为 A ^ t \hat{A}_t A^t引入baseline,以减小方差,提升训练稳定性

A ^ t = R ^ t − V ϕ k \hat{A}_t=\hat{R}_t-V_{\phi_k} A^t=R^tVϕk

比较

/REINFORCEVPG
价值网络
参数更新每个时间步每个episode
回报有折扣无折扣
采样轨迹一条多条
baseline
http://www.yayakq.cn/news/258842/

相关文章:

  • 旅游信息管理网站开发文件网站建设学徒
  • 网站集约建设原因加新tag wordpress
  • 广州网站seo招聘购物网站的提交订单功能需要做唯一性约束
  • 网站收录查询方法seo sem论坛
  • wordpress 做笔记商品关键词优化的方法
  • 梅州建站电话如何做滴滴网站平台
  • 网站定制化开发介绍wordpress整合openid
  • 网站建设职业发展前景和现状广告标识标牌制作厂家
  • 做房产网站在百度推广推广费选择电商网站建设
  • wordpress如何修改文章路径seo刷关键词排名免费
  • 给自己的网站做镜像网站收费搭建网站
  • 好的国外设计网站推荐横峰县城乡建设网站
  • 设计网站导航大全上林住房和城乡建设网站
  • 怎么建一个网站卖东西手工制作大全图片简单
  • 网站建设人员叫什么科目中材矿山建设有限公司网站
  • 自己网站如何做关键词排名自学建设网站
  • 千海网站建设 小程序做企业网站软件
  • 最便宜 双网站建设建立网站多少钱
  • 南京网站建设知识北京百度推广代理公司
  • 赤峰网站建设哪家好免费设计自己的名字
  • 个人网站有哪些平台深圳网站建设公司排行榜
  • 宜昌营销型网站建设做网站显示不同字体
  • 盘锦市网站建设西安百度竞价推广
  • 凡科做的网站好吗投资建设网站首页
  • js判断是手机还是电脑访问网站做的好的h游戏下载网站
  • 九江浔阳网站建设网站开发昆山
  • 网站没备案怎么做加速网站建设店淘宝
  • 金融理财网站建设大理州建设局门户网站
  • 南山网站建设公在自己的网站做外链
  • 如何创办自己的网站有什么字体设计网站