网站界面设计的流程,皖icp合肥网站建设,网络营销的主要特点有哪些,com域名代表什么1.1 强化学习与深度学习的基本概念 
1.1.1 强化学习的核心思想 
什么是强化学习#xff1f; 强化学习#xff08;Reinforcement Learning, RL#xff09;#xff1a;指在与环境#xff08;Environment#xff09;的反复交互中#xff0c;智能体#xff08;Agent#x…1.1 强化学习与深度学习的基本概念 
1.1.1 强化学习的核心思想 
什么是强化学习 强化学习Reinforcement Learning, RL指在与环境Environment的反复交互中智能体Agent通过“试错”获取经验并依据获得的奖励Reward学习出最优策略Policy以期在未来的决策中取得最大化的累积回报Return。  核心要素 智能体Agent在环境中执行动作的主体环境EnvironmentAgent 与之交互的外部世界状态State环境在某一时刻的刻画Agent 能观测到或部分观测到动作ActionAgent 针对所处状态执行的操作奖励Reward环境对 Agent 所执行动作的反馈信号用来衡量动作的好坏策略PolicyAgent 在任意给定状态下选择动作的规则或函数 $ π ( a ∣ s ) \pi(a|s) π(a∣s))目标在整个交互过程中累积尽可能多的奖励或最大化期望折扣累积奖励。  
强化学习与监督/无监督学习的区别 监督学习Supervised Learning 有“正确标签”作为监督信息训练目标是最小化预测与标签之间的损失如分类错误率、回归均方差。  无监督学习Unsupervised Learning 无任何标签信息尝试从数据中发现分布结构或聚类模式常见应用聚类、降维、异常检测等。  强化学习Reinforcement Learning 没有直接的“正确动作”标签只有环境给出的奖励信号学习是通过“试错”来迭代地调整策略以期获得最大累计回报当前动作会影响未来的状态和奖励存在时间与序列上的依赖。  
强化学习的基本流程 
Agent 根据某种策略  π \pi π 选择动作  a t a_t at环境执行该动作并返回下一状态  s t  1 s_{t1} st1 与即时奖励  r t r_t rtAgent 更新自己的策略或价值函数重复交互直到任务结束或达到最大时间步数。 
这个反复交互与决策-反馈的过程是强化学习最突出的特点。不断从环境中“试错”并更新策略以适应不确定或动态的外界。 1.1.2 深度学习基础回顾 
为了将强化学习扩展到高维、复杂的状态空间如图像、文本往往需要借助 深度神经网络 来进行函数逼近。此时就进入了 深度强化学习Deep Reinforcement Learning, DRL 的范畴。以下是深度学习的几个关键概念 神经网络结构 通常由多层线性或卷积、循环等结构堆叠加上激活函数ReLU、Sigmoid、Tanh 等构成可以视为一个可微分的函数  f θ ( x ) f_\theta(x) fθ(x)其中  θ \theta θ 表示模型参数权重和偏置。  梯度下降与损失函数 损失函数Loss Function衡量预测与目标之间差异的函数常见如均方误差、交叉熵梯度下降Gradient Descent利用目标函数相对于参数的梯度来迭代更新参数优化器OptimizerSGD、Adam、RMSProp 等都是常用的梯度下降算法变体用于加速收敛、提升稳定性。  深度学习在强化学习中的角色 函数逼近器将状态作为输入输出价值Q 值或动作的概率分布特征提取通过卷积网络或其他结构从原始高维数据如图像中提取有用的特征。  
结合深度学习后强化学习能够应对高维连续状态、复杂的感知和控制任务如 Atari 游戏、机器人操控、自动驾驶等场景。 1.2 马尔可夫决策过程MDP 
1.2.1 MDP 基本定义 
强化学习通常用 马尔可夫决策过程Markov Decision Process, MDP 来建模。MDP 是一个五元组  ⟨ S , A , P , R , γ ⟩ \langle \mathcal{S}, \mathcal{A}, P, R, \gamma \rangle ⟨S,A,P,R,γ⟩ 状态空间  S \mathcal{S} S 系统可能处于的所有状态的集合离散或连续。  动作空间  A \mathcal{A} A Agent 可执行的所有动作集合离散或连续。  转移概率  P ( s t  1 ∣ s t , a t ) P(s_{t1} | s_t, a_t) P(st1∣st,at) 从状态  s t s_t st 执行动作  a t a_t at 后进入下一状态  s t  1 s_{t1} st1 的概率分布。“马尔可夫性质”表示下一状态只与当前状态和当前动作有关与过去的历史无关。  奖励函数  R ( s t , a t , s t  1 ) R(s_t, a_t, s_{t1}) R(st,at,st1) 执行动作后得到的奖励可简化成  R ( s , a ) R(s,a) R(s,a) 或  R ( s ) R(s) R(s) 等形式。  折扣因子  γ ∈ [ 0 , 1 ] \gamma \in [0,1] γ∈[0,1] 用于平衡短期奖励和长期奖励的权重越接近 1越重视长期效益越接近 0越重视眼前奖励。  
累计奖励 
目标最大化期望折扣累计回报  E [ ∑ t  0 ∞ γ t r t ] \LARGE \mathbb{E}\left[\sum_{t0}^{\infty} \gamma^t r_t \right] E   t0∑∞γtrt    , 其中  r t r_t rt 是智能体在时间步  t t t 获得的即时奖励。 1.2.2 价值函数与 Q 函数 
策略  π \pi π 
策略  π \pi π 定义在每个状态  s s s 下选择动作  a a a 的分布 π ( a ∣ s ) \pi(a|s) π(a∣s)。确定性策略 π ( s )  a \pi(s)  a π(s)a即在状态  s s s 下必然选择动作  a a a随机策略 π ( a ∣ s ) \pi(a|s) π(a∣s) 是一个概率分布在状态  s s s 下选择动作  a a a 的概率。 
状态价值函数  V π ( s ) V^\pi(s) Vπ(s) 
在策略  π \pi π 下从状态  s s s 出发所能获得的期望折扣累计奖励  V π ( s )  E π [ ∑ k  0 ∞ γ k r t  k | s t  s ] \LARGE V^\pi(s)  \mathbb{E}_\pi \left[ \sum_{k0}^\infty \gamma^k r_{tk} \,\middle|\, s_t  s \right] Vπ(s)Eπ   k0∑∞γkrtk   sts   这表示如果我们始终遵循策略  π \pi π在状态  s s s 时的预期收益。 
动作价值函数  Q π ( s , a ) Q^\pi(s,a) Qπ(s,a) 
在策略  π \pi π 下从状态  s s s 执行动作  a a a 后所能获得的期望折扣累计奖励  Q π ( s , a )  E π [ ∑ k  0 ∞ γ k r t  k | s t  s , a t  a ] \LARGE Q^\pi(s,a)  \mathbb{E}_\pi \left[ \sum_{k0}^\infty \gamma^k r_{tk} \,\middle|\, s_t  s, a_ta \right] Qπ(s,a)Eπ   k0∑∞γkrtk   sts,ata   也称作 Q 函数 或 动作价值函数。 
价值函数与策略之间的关系 状态价值函数与 Q 函数  V π ( s )  ∑ a ∈ A π ( a ∣ s ) Q π ( s , a ) \LARGE V^\pi(s)  \sum_{a \in \mathcal{A}} \pi(a|s) \, Q^\pi(s,a) Vπ(s)a∈A∑π(a∣s)Qπ(s,a) 状态价值是动作价值的加权期望权重为策略在该状态下选择各动作的概率。  Bellman 期望方程在策略  π \pi π 下  Q π ( s , a )  R ( s , a )  γ ∑ s ′ P ( s ′ ∣ s , a ) V π ( s ′ ) \LARGE Q^\pi(s,a)  R(s,a)  \gamma \sum_{s} P(s|s,a) V^\pi(s) Qπ(s,a)R(s,a)γs′∑P(s′∣s,a)Vπ(s′) 也可写成  V π ( s )  ∑ a π ( a ∣ s ) [ R ( s , a )  γ ∑ s ′ P ( s ′ ∣ s , a ) V π ( s ′ ) ] \LARGE V^\pi(s)  \sum_{a} \pi(a|s) \big[R(s,a)  \gamma \sum_{s}P(s|s,a)V^\pi(s)\big] Vπ(s)a∑π(a∣s)[R(s,a)γs′∑P(s′∣s,a)Vπ(s′)]  
最优价值函数 
最优状态价值函数  V ∗ ( s )  max  π V π ( s ) \LARGE V^*(s)  \max_\pi V^\pi(s) V∗(s)πmaxVπ(s) 即在状态  s s s 下能获得的最高期望回报。最优 Q 函数  Q ∗ ( s , a )  max  π Q π ( s , a ) \LARGE Q^*(s,a)  \max_\pi Q^\pi(s,a) Q∗(s,a)πmaxQπ(s,a) 即在状态  s s s 执行动作  a a a 后所能获得的最高期望回报。对于任何 MDP都存在一个或多个最优策略  π ∗ \pi^* π∗其满足  Q ∗ ( s , a )  Q π ∗ ( s , a ) , V ∗ ( s )  V π ∗ ( s ) \LARGE Q^*(s,a)  Q^{\pi^*}(s,a), \quad V^*(s)  V^{\pi^*}(s) Q∗(s,a)Qπ∗(s,a),V∗(s)Vπ∗(s) 1.3 经典强化学习方法 
在传统强化学习领域未结合深度学习之前有一些基本且重要的方法如动态规划、价值迭代、策略迭代以及以 Q-Learning / SARSA 为代表的时序差分TD方法等。这些算法主要针对离散、规模相对较小的状态空间。 
1.3.1 动态规划 (Dynamic Programming, DP) 
动态规划方法通常要求我们可以完全访问环境的动态模型即知道转移概率和奖励函数来进行 规划planning。两种典型的 DP 算法为 
1.3.1.1 价值迭代Value Iteration 
Bellman 最优方程对最优价值函数  V ∗ ( s ) V^*(s) V∗(s) 有  V ∗ ( s )  max  a [ R ( s , a )  γ ∑ s ′ P ( s ′ ∣ s , a ) V ∗ ( s ′ ) ] \LARGE V^*(s)  \max_a \Big[ R(s,a)  \gamma \sum_{s} P(s|s,a)\, V^*(s) \Big] V∗(s)amax[R(s,a)γs′∑P(s′∣s,a)V∗(s′)]价值迭代算法从一个初始  V V V 开始在每次迭代对所有状态执行  V ( s ) ← max  a [ R ( s , a )  γ ∑ s ′ P ( s ′ ∣ s , a ) V ( s ′ ) ] . \LARGE V(s) \leftarrow \max_a \Big[ R(s,a)  \gamma \sum_{s} P(s|s,a)\, V(s) \Big]. V(s)←amax[R(s,a)γs′∑P(s′∣s,a)V(s′)].当  V ( s ) V(s) V(s) 收敛后即得到近似的最优价值函数  V ∗ V^* V∗。进而可推得最优策略  π ∗ ( s )  arg  max  a [ R ( s , a )  γ ∑ s ′ P ( s ′ ∣ s , a ) V ( s ′ ) ] \LARGE \pi^*(s)  \arg\max_a \Big[ R(s,a)  \gamma \sum_{s} P(s|s,a)\, V(s) \Big] π∗(s)argamax[R(s,a)γs′∑P(s′∣s,a)V(s′)] 
1.3.1.2 策略迭代Policy Iteration 
分为两个阶段的交替 策略评估Policy Evaluation在当前策略  π \pi π 下计算得到  V π V^\pi Vπ策略提升Policy Improvement基于  V π V^\pi Vπ 来更新得到新策略  π ′ \pi π′使得期望收益更高。 反复迭代直到策略不再改变得到最优策略  π ∗ \pi^* π∗。 动态规划主要缺点在于它通常需要我们显式知道环境的转移概率  P P P且状态空间不宜过大否则枚举计算的开销很大。 1.3.2 Q-Learning 和 SARSA 
当环境模型未知或者难以获得时可以采用**时序差分Temporal Difference, TD**的学习方法直接通过与环境交互的样本来更新价值函数。其中最经典的两个算法是 Q-Learning 和 SARSA。它们都更新 动作价值函数  Q ( s , a ) Q(s,a) Q(s,a)但有一些差异。 
1.3.2.1 Q-Learning 
目标学得最优 Q 函数  Q ∗ ( s , a ) Q^*(s,a) Q∗(s,a)在任意状态下选择  max  a Q ( s , a ) \max_a Q(s,a) maxaQ(s,a) 即可得到最优动作。更新规则  Q ( s t , a t ) ← Q ( s t , a t )  α [ r t  γ max  a ′ Q ( s t  1 , a ′ ) − Q ( s t , a t ) ] \LARGE Q(s_t,a_t) \leftarrow Q(s_t,a_t)  \alpha \Big[r_t  \gamma \max_{a}Q(s_{t1},a) - Q(s_t,a_t)\Big] Q(st,at)←Q(st,at)α[rtγa′maxQ(st1,a′)−Q(st,at)] 其中  α \alpha α 为学习率。离策略Off-policy 在实际执行中Agent 会采用  ϵ \epsilon ϵ-贪心等探索策略选动作但更新时使用的是  max  a ′ Q \max_{a}Q maxa′Q 的估计来逼近最优策略。这种“行为策略”与“目标策略”分离的方式称为 Off-policy。  
1.3.2.2 SARSA 
目标学得“当前策略”本身的 Q 值而不是最优策略更新规则  Q ( s t , a t ) ← Q ( s t , a t )  α [ r t  γ Q ( s t  1 , a t  1 ) − Q ( s t , a t ) ] \LARGE Q(s_t,a_t) \leftarrow Q(s_t,a_t)  \alpha \Big[r_t  \gamma Q(s_{t1}, a_{t1}) - Q(s_t,a_t)\Big] Q(st,at)←Q(st,at)α[rtγQ(st1,at1)−Q(st,at)] 与 Q-Learning 的区别在于TD 目标中用的动作是实际执行的动作  a t  1 a_{t1} at1而非  max  a ′ Q ( s t  1 , a ′ ) \max_{a} Q(s_{t1},a) maxa′Q(st1,a′)。同策略On-policy SARSA 所学习的策略与行为策略一致也就是说它估计的是“ ϵ \epsilon ϵ-贪心策略自己”的价值函数。  
1.3.2.3 比较 
Q-Learning 更常用于学习最优策略若能充分探索但在某些噪声较大或者需要更保守策略的场景SARSA 也有其价值例如在 CliffWalking 环境中SARSA 往往会学得更保守的路线。 1.3.3 策略梯度Policy Gradient概念概述 
在上述 Q-Learning / SARSA / 动态规划 等方法中核心思想是先估计价值函数如  Q ( s , a ) Q(s,a) Q(s,a) 或  V ( s ) V(s) V(s)然后再通过贪心方式派生或改进策略。 而 策略梯度 方法则是从直接对策略  π θ ( a ∣ s ) \pi_\theta(a|s) πθ(a∣s) 本身进行参数化和梯度优化的角度出发 
参数化策略 π θ ( a ∣ s ) \pi_\theta(a|s) πθ(a∣s)其参数为  θ \theta θ可用神经网络表示。目标最大化期望回报  J ( θ )  E π θ [ ∑ γ t r t ] J(\theta)  \mathbb{E}_{\pi_\theta}\left[\sum \gamma^t r_t\right] J(θ)Eπθ[∑γtrt]。思想基于梯度上升通过  ∇ θ J ( θ ) \nabla_\theta J(\theta) ∇θJ(θ) 的估计来更新  θ \theta θ。 
这种方法适用于连续动作空间或高维动作空间等场景并且在先进的算法如 PPO、SAC中广泛使用。我们在后续章节会深入展开 Policy Gradient 与 Actor-Critic 算法的完整推导和实现。 总结 
在这一阶段我们系统地介绍了强化学习的 概念基础、MDP 理论框架以及 经典强化学习方法动态规划、Q-Learning、SARSA、策略梯度基础。核心要点包括 
强化学习与监督/无监督学习的区别无正确标签通过试错最大化累积奖励深度学习在 RL 中的角色使用神经网络对价值函数或策略函数进行逼近提高模型对高维复杂数据的处理能力MDP 基本要素状态、动作、转移概率、奖励、折扣因子重点理解马尔可夫性质价值函数与 Q 函数状态价值和动作价值是衡量某个策略在不同状态/动作组合下的未来收益预估经典强化学习 动态规划价值迭代、策略迭代要求已知环境模型Q-Learning  SARSA时序差分方法通过与环境的交互样本在线学习策略梯度概念直接对策略进行参数化、对期望回报进行梯度优化。  
以上内容构成强化学习的“底层框架”为后续的**深度强化学习DQN、DDPG、PPO、SAC 等**打下扎实基础。在后面的学习中我们会进一步讨论如何利用神经网络来逼近  Q Q Q 函数或策略并解决各种复杂场景下的控制与决策问题。