网站建设答案网站开发培训时间
深度强化学习算法的参数更新时机
深度强化学习中往往涉及到多个神经网络来拟合策略函数、值函数等,什么时候更新参数因算法而异,与具体算法架构/算法思想紧密相关。
| 算法 | 参数更新时机 | 架构 |
|---|---|---|
| DQN | 先收集一定经验,然后每步更新 | Off Policy Value-Based |
| DDPG | 先收集一定经验,然后每步更新 | Off Policy Actor-Critic |
| TD3 | 先收集一定经验,然后每步更新 | Off Policy Actor-Critic |
| SAC | 先收集一定经验,然后每步更新 | Off Policy Actor-Critic |
| REINFORCE | 每步更新 | On Policy Policy Gradient |
| VPG | 每个episode更新一次 | On Policy Actor-Critic |
| A2C/A3C | 每步更新 | On Policy Actor-Critic |
| PPO | 每个episode采集结束后,集中抽样更新多次 | On Policy Actor-Critic |
| TRPO | 每个episode采集结束后,集中抽样更新多次 | On Policy Actor-Critic |
