当前位置: 首页 > news >正文

海口网站建设联系方式网站模板建站教程

海口网站建设联系方式,网站模板建站教程,南宁百度seo网站优化,什么对网站建设起到计划和指导作用蒙特卡洛树搜索方法介绍——Q规划与Dyna-Q算法 引言回顾:直接强化学习与间接强化学习规划与学习的差异性分布模型与样本模型从算法更新图的角度认识规划与学习的差异性随机采样单步表格式Q规划Dyna-Q算法引言 上一节介绍了规划与学习的相关信息,并介绍了直接强化学习(Direct…

蒙特卡洛树搜索方法介绍——Q规划与Dyna-Q算法

  • 引言
    • 回顾:直接强化学习与间接强化学习
    • 规划与学习的差异性
      • 分布模型与样本模型
      • 从算法更新图的角度认识规划与学习的差异性
    • 随机采样单步表格式Q规划
    • Dyna-Q算法

引言

上一节介绍了规划与学习的相关信息,并介绍了直接强化学习(Direct Reinforcement Learning)和间接强化学习(Indirect Reinforcement Learning),本节利用上述两种概念,介绍 Q Q Q规划算法与Dyna-Q算法

回顾:直接强化学习与间接强化学习

如果单纯使用规划方法,其主要思想表示如下:

  • 已知环境模型——对任意状态 s ∈ S s \in \mathcal S sS动作 a ∈ A ( s ) a \in \mathcal A(s) aA(s)确定的情况下,其转移后的新状态 s ′ s' s,对应的奖励结果 r r r动态特性函数 P ( s ′ , r ∣ s , a ) P(s',r \mid s,a) P(s,rs,a)均是给定的
  • 根据状态-动作对 ( s , a ) (s,a) (s,a),通过 环境模型 进行搜索(Search),得到新状态 s ′ s' s和对应奖励结果 r r r(基于 模拟经验(Simulation Experience)产生的结果);
    注意:此时产生的s'和r被称为‘模拟经验’——它并不是从真实环境中真实地执行了一次状态转移过程,而是在动态特性函数P(s',r|s,a)中基于转移后新状态的概率分布,随机选择的结果。
  • 至此,得到了一组 模拟状态转移结果 → ( s , a , s ′ , r ) \to (s,a,s',r) (s,a,s,r),利用该结果更新策略 π \pi π
    动态规划方法为例,该方法主要使用策略迭代操作
    • 策略评估(Policy Evaluation):(贝尔曼期望方程的不动点性质)
      V k + 1 ( s ) = ∑ a ∈ A ( s ) π ( a ∣ s ) ∑ s ′ , r P ( s ′ , r ∣ s , a ) [ r + γ V k ( s ′ ) ] V_{k+1}(s) = \sum_{a \in \mathcal A(s)}\pi(a \mid s) \sum_{s',r}P(s',r \mid s,a)[r+ \gamma V_{k}(s')] Vk+1(s)=aA(s)π(as)s,rP(s,rs,a)[r+γVk(s)]
    • 策略改进(Policy Improvment):(贪心算法)
      π ∗ ( a ∣ s ) = { 1 i f a = arg ⁡ max ⁡ a ∈ A q π ∗ ( s , a ) 0 e l s e \pi_*(a \mid s) = \left\{ \begin{array}{ll} 1\quad if \quad a= \mathop{\arg\max}\limits_{a \in \mathcal A}q_{\pi^*}(s,a)\\ 0\quad else \end{array} \right. π(as)={1ifa=aAargmaxqπ(s,a)0else

由于上述思想是基于环境模型给定的条件下,直接使用环境模型对策略进行规划。因此,上述方法属于直接强化学习
直接强化学习的定义:在真实环境中采集真实经验,根据真实经验直接更新值函数或策略,不受模型偏差的影响。
在动态规划方法中,它通过动态特性函数获取模拟经验,它不是真实经验,但为什么‘动态规划方法’是‘直接强化学习’呢?
以下是个人看法:动态规划中已知的动态特性函数就是‘理想状态下模型的表达’——也可以理解成经过无数次采样近似出的‘完美环境模型’。因此,动态规划方法产生的经验同样是‘真实经验’。

使用学习方法的主要思想是基于环境模型未知或未完全可知,导致我们 无法使用环境模型直接对策略进行规划。因此,使用学习(Learning)方法求解真实经验

在真实环境中,给定状态 s s s条件下,选择具体动作 a ∈ A ( s ) a \in \mathcal A(s) aA(s),并执行一次真实的状态转移过程得到新状态 s ′ s' s以及对应奖励 r r r。至此,我们得到一组 真实状态转移结果 ( s , a , s ′ , r ) (s,a,s',r) (s,a,s,r),在求解策略 π \pi π的方向中,共分为 两条路径

  • 由于 ( s , a , s ′ , r ) (s,a,s',r) (s,a,s
http://www.yayakq.cn/news/378340/

相关文章:

  • 招投标 网站建设宣传册设计与制作软件
  • 南昌专业做网站公司有哪些阿里云服务器 个人网站
  • 现在有没有免费的网站空间备案我网站的大致内容是
  • 百度站长收录入口东莞市网站开发
  • 网站建设收税专门做娱乐场所的设计网站
  • 搜启网站建设湖南网站设计亮点
  • 产品设计网站制作企业qq官网首页
  • 制作企业网站页面实训报告网站防护怎么做
  • 珠海网站制作渠道天河做网站技术
  • 2017网站开发合同下载想要网站导航推广页
  • 济南一哥网站建设公司营销策划公司经营范围包括哪些
  • 资阳市住房和城乡建设局网站wordpress 采集蜘蛛
  • 磁力链网站怎么做的做微信h5的网站
  • 咨询服务公司网站建设如何使用模板建设网站
  • 自己做的视频发什么网站吗it运维工程师简历
  • 网站的服务内容二级域名分发网站
  • 免费网站推广工具有哪些自己电脑做网站访问速度
  • 怎么做网站论坛西安互联网网站建设
  • 建设九九网站一个网站建设流程图
  • 一条龙建站网站开发主要职责
  • 网站seo检测报告益阳市建设局网站是什么
  • 温州大都市建设开发有限公司网站源码做微信电影网站
  • 解决方案的网站建设wordpress承受访问量
  • 视频在线直播网站建设深圳罗湖外贸网站建设
  • 为什么asp.net做的网站上传后不显示照片有专门教做儿童美食的网站吗
  • 网站开发融资网站红色
  • 门户网站开发申请湖北十堰
  • 给个能直接看的网址谢谢seo指哪些市场区域
  • 合肥建网站的公司荣成网站建设
  • 深圳网站备案拍照安全文化建设方案细则