当前位置: 首页 > news >正文

dedecms旅游网站模板wordpress通知站点360搜索

dedecms旅游网站模板,wordpress通知站点360搜索,企业官网网站优化公司,信息网站的建设2024/6/23: 前段时间有幸完成了大学期间的第一篇论文。在面试之前复盘一下关于自己论文中DQN的一些相关点。 浅谈主要区别(在线 or 离线) 首先,一切的开始是强化学习中时序差分方程,这体现了强化学习方法的优化策略。在…

2024/6/23:

        前段时间有幸完成了大学期间的第一篇论文。在面试之前复盘一下关于自己论文中DQN的一些相关点。

浅谈主要区别(在线 or 离线)

        首先,一切的开始是强化学习中时序差分方程,这体现了强化学习方法的优化策略。在看方程之前,先要理解Q值的概念——即当前状态S下采取动作A继续下去能够得到的最佳收益

        该方程通过Target值(采取当前动作后得到的奖励 + 采取动作后下一个状态根据某个策略选取动作的Q值)减去估计值(当前估计的当前状态采取A的Q值)再乘上一个类似于学习率的量来更新当前估计的当前状态的Q值,而方程的目的就是来逼近真正的最佳收益。可能有点绕,但是从类似于动态规划的角度看会明白一点。

        下面是on-policy和off-policy策略的区别:

        这两种策略本质上的区别是他们的时序差分方程,如下图所示,上面的target属于on-policy方法,下面的属于off-policy方法:

        on-policy主要应用于Sarsa方法,是一种在线的交互式的学习方法,大概就像是。采取这种策略的方法通过当前状态下选取的一定会执行的action来优化自身的Q表格。action的选取可以通过随机选取,也可以根据贪婪策略选取,然后根据这个选取的action计算得到的结果来更新Q表格。很显然,用这种方法进行训练的效率很慢,需要很长的时间方法才可以收敛,在我看来基本是off-policy方法的完全下位,但优点也存在,也就是对在线交互式实验方法的适应。

        从时序差分方程的角度看下面这张图,将其中的内容和方程中的联系起来看,就能大概理解sarsa做了什么:

        off-policy是一种更加常用的方法,Q-learning和DQN都属于这一类的方法。从方程中获取target值的区别就可以看到,他使用下个状态的采取所有动作的最佳Q值来优化,因此收敛也更快。

参考:在线/离线策略区别

面向新手:从零学习强化学习

http://www.yayakq.cn/news/771241/

相关文章:

  • 手机上打开html的软件多图片网站优化
  • 网站空间提供商网站要害字
  • 优秀电子商务网站电力公司建设安全文化
  • 开发定制网站公司wordpress制作api文件路径
  • 国内做心理咨询师培训出名的网站程序员给传销做网站
  • 校园网站建设情况统计表厦门网站设计一般要多久
  • 网站后台修改教程做零食网站的选题理由
  • 苏州网站开发公司济南兴田德润地址flash网站php源码
  • 自家电脑做网站苏州哪家保洁公司好
  • 网站开发 法律媒体平台推广
  • jsp网站开发的环境配置邯郸网站设计服务平台
  • 建设银行临夏分行网站网站建设部署与发布
  • 网站职业技能培训班火车头获取不到wordpress列表
  • 做网站那家比较好免费的网站app下载
  • 如何做国外网站推广建站平台与自己做网站
  • 全球最热门网站网站开发原型 图
  • 怎样做展示型网站国家网站后缀
  • wordpress整站搬迁在线网页服务器
  • 万网站科技信息期刊
  • 金堂县城乡建设局网站wordpress删除自定义分类
  • 网站登录记录怎么删除长春关键词排名优化
  • 杰奇怎么做网站地图怎么自己做论坛网站吗
  • 优惠券精选网站怎么做手机制作h5的app免费
  • 网站建设验收单意见怎么写网站开发设计书籍
  • 游戏门户网站建设企业年报系统登录
  • 部门子网站建设方案阿里巴巴国际站外贸流程
  • 免费网站注册百度一下网页版
  • 深圳企业网站建设制作公司美团推广联盟
  • 公众号建设成小说网站网站全是乱码
  • 盐城网站建设价位如何设计一个网页