当前位置: 首页 > news >正文

网站建设我们的优势wordpress目录结构分析

网站建设我们的优势,wordpress目录结构分析,前端网站建设和维护,seo网站案例文章目录 1. 什么是在线MC强化学习2. 什么是离线MC强化学习3. 在线MC强化学习有何缺点 1. 什么是在线MC强化学习 在线强化学习(on-policy MC RL),是指:智能体在策略评估时为获取完整轨迹所采用的采样策略 π s a m p l e ( a ∣ …

文章目录

  • 1. 什么是在线MC强化学习
  • 2. 什么是离线MC强化学习
  • 3. 在线MC强化学习有何缺点

1. 什么是在线MC强化学习

在线强化学习(on-policy MC RL),是指:智能体在策略评估时为获取完整轨迹所采用的采样策略 π s a m p l e ( a ∣ s ) \pi_{sample}(a|s) πsample(as),与策略控制时要改进的策略 π ( a ∣ s ) \pi(a|s) π(as)都是同一个策略,即: π = π s a m p l e \pi=\pi_{sample} π=πsample

简而言之:所谓在线,就是在对一个初始策略评估的同时,利用 ϵ − \epsilon- ϵ贪心算法对它进行及时改进。

2. 什么是离线MC强化学习

所在离线强化学习(off-policy MC RL),是指:智能体在策略评估时为获取完整轨迹所采用的采样策略 π s a m p l e ( a ∣ s ) \pi_{sample}(a|s) πsample(as),与策略控制时要改进的策略 π ( a ∣ s ) \pi(a|s) π(as)不是同一个策略,即: π ≠ π s a m p l e \pi\ne\pi_{sample} π=πsample

3. 在线MC强化学习有何缺点

  • 所学到的策略可能不适合作为最终的策略使用。
    • 为什么?
      • 因为它引入的 ϵ − \epsilon- ϵ贪心算法虽然确保了完整轨迹覆盖状态的多样性,但却以牺牲较快找到最优策略为代价,它总是小心翼翼,认为最优行为有可能存在于依赖经验确定的最优行为之外;
      • 它没有考虑这一常识:随着轨迹覆盖了更多的状态和行为,随着这些状态行为对出现次数的增多,依赖完全贪心算法所确定的最优行为应该越来越具有获得更高累积回报期望的把握
      • 如果智能体已经有关于如何更快更好地获得完整轨迹采样的先验策略,而这样的策略能够帮助自己更快地优化最终所要采取的策略,就没有必要在策略评估和策略控制中采用同一策略了。

由于以上缺点,人们已经发展出了离线强化学习算法,它可以进一步细分为

  • 重要性采样MC强化学习算法
  • 加权重要性采样MC强化学习算法
http://www.yayakq.cn/news/491605/

相关文章:

  • wordpress 多网站吗centos7 wordpress
  • 网站建设经费保障中国建筑集团有限公司是央企还是国企
  • 做网站买域名漏惹网站做
  • 北京做网站比较有名的公司有哪些微网站平台
  • 桂林北站到龙脊梯田沈阳网页设计培训
  • icp网站建设衡水网站建设找谁
  • jsp商务网站建设asp影视网站源码
  • 做一个网站的详细教学义乌官网制作网站
  • 网站建设的主要问题9uu域名更新自动转跳
  • 网站后台教程小红网站建设
  • 点击最高的模板网站盐城市滨海县建设局网站
  • 海洋网络专业网站建设郑州做网站公司有多少钱
  • 网站的功能和作用是什么郑州公共住宅建设投资有限公司网站
  • php网站开发工程师职责崇安区网站建设价格
  • 昆明专门做网站手游折扣平台app哪个好
  • 重庆网站建设价格费用杭州哪家做外贸网站好
  • 网络营销课程实训总结seovip培训
  • 新津网站建设青海建筑人才网
  • 吉林新农村建设网站自学网站建设买什么书
  • 灵犀科技 高端网站建设大庆市建设局网站刘东
  • 做的网站怎么放到网上徐州市徐州市城乡建设局网站首页
  • 帝国cms做英文网站wordpress怎样设置留言板
  • 成都网站建设公司汇总饰品行业网站开发
  • 做网站 智域大连网上三维展馆网站是怎么做的
  • 公司备案号查询网站织梦网站优化怎么做
  • 网站建设了推广方案wordpress汉化主题下载地址
  • 想学做网站 应该学高端装修公司门头设计效果图
  • 自己做网站上市网站架构组成部分
  • 网站开发和app开发的区别wordpress 文章 时间段
  • wang域名的网站wordpress 提高速度