当前位置: 首页 > news >正文

wordpress全站背景vi设计 站酷

wordpress全站背景,vi设计 站酷,网站建设的项目亮点怎么写,怎样用vs做简单网站经验回放:Experience Replay(训练DQN的一种策略) 优点:可以重复利用离线经验数据;连续的经验具有相关性,经验回放可以在离线经验BUFFER随机抽样,减少相关性; 超参数:Rep…

经验回放:Experience Replay(训练DQN的一种策略)


优点:可以重复利用离线经验数据;连续的经验具有相关性,经验回放可以在离线经验BUFFER随机抽样,减少相关性;

超参数:Replay Buffer的长度;
∙ Find w by minimizing  L ( w ) = 1 T ∑ t = 1 T δ t 2 2 . ∙ Stochastic gradient descent (SGD): ∙ Randomly sample a transition,  ( s i , a i , r i , s i + 1 ) , from the buffer ∙ Compute TD error,  δ i . ∙ Stochastic gradient: g i = ∂ δ i 2 / 2 ∂ w = δ i ⋅ ∂ Q ( s i , a i ; w ) ∂ w ∙ SGD: w ← w − α ⋅ g i . \begin{aligned} &\bullet\text{ Find w by minimizing }L(\mathbf{w})=\frac{1}{T}\sum_{t=1}^{T}\frac{\delta_{t}^{2}}{2}. \\ &\bullet\text{ Stochastic gradient descent (SGD):} \\ &\bullet\text{ Randomly sample a transition, }(s_i,a_i,r_i,s_{i+1}),\text{from the buffer} \\ &\bullet\text{ Compute TD error, }\delta_i. \\ &\bullet\text{ Stochastic gradient: g}_{i}=\frac{\partial\delta_{i}^{2}/2}{\partial \mathbf{w}}=\delta_{i}\cdot\frac{\partial Q(s_{i},a_{i};\mathbf{w})}{\partial\mathbf{w}} \\ &\bullet\text{ SGD: w}\leftarrow\mathbf{w}-\alpha\cdot\mathbf{g}_i. \end{aligned}  Find w by minimizing L(w)=T1t=1T2δt2. Stochastic gradient descent (SGD): Randomly sample a transition, (si,ai,ri,si+1),from the buffer Compute TD error, δi. Stochastic gradient: gi=wδi2/2=δiwQ(si,ai;w) SGD: wwαgi.


注:实践中通常使用minibatch SGD,每次抽取多个经验,计算小批量随机梯度;
Replay Buffer代码实现如下:

@dataclass
class ReplayBuffer:maxsize: intsize: int = 0state: list = field(default_factory=list)action: list = field(default_factory=list)next_state: list = field(default_factory=list)reward: list = field(default_factory=list)done: list = field(default_factory=list)def push(self, state, action, reward, done, next_state):""":param state: 状态:param action: 动作:param reward: 奖励:param done::param next_state:下一个状态:return:"""if self.size < self.maxsize:self.state.append(state)self.action.append(action)self.reward.append(reward)self.done.append(done)self.next_state.append(next_state)else:position = self.size % self.maxsizeself.state[position] = stateself.action[position] = actionself.reward[position] = rewardself.done[position] = doneself.next_state[position] = next_stateself.size += 1def sample(self, n):total_number = self.size if self.size < self.maxsize else self.maxsizeindices = np.random.randint(total_number, size=n)state = [self.state[i] for i in indices]action = [self.action[i] for i in indices]reward = [self.reward[i] for i in indices]done = [self.done[i] for i in indices]next_state = [self.next_state[i] for i in indices]return state, action, reward, done, next_state

训练时的代码如下:

离线数据放到BUFFER里面:

#动作、状态、奖励、结束标志、下一状态
replay_buffer.push(state, action, reward, done, next_state)

训练时采样然后计算损失

bs, ba, br, bd, bns = replay_buffer.sample(n=args.batch_size)
bs = torch.tensor(bs, dtype=torch.float32)
ba = torch.tensor(ba, dtype=torch.long)
br = torch.tensor(br, dtype=torch.float32)
bd = torch.tensor(bd, dtype=torch.float32)
bns = torch.tensor(bns, dtype=torch.float32)loss = agent.compute_loss(bs, ba, br, bd, bns)
loss.backward()
optimizer.step()
optimizer.zero_grad()
http://www.yayakq.cn/news/88865/

相关文章:

  • 网站怎么能被百度收录国内装修公司
  • 国外网站赏析建设网站需要钱吗
  • 四川网站排名湖北项目备案查询系统
  • 压铸东莞网站建设沈阳网站建设莫道网络
  • 家居企业网站建设精英建设门户网站需要注意什么
  • 怎么做一个手机网站中国建设银行网站下载安装
  • 网站建设印花税税率网页游戏平台返利
  • 山东网站建设模板制作wordpress支持视频播放器插件
  • 网站设置flash插件网站建设与维护案例
  • 深圳网站设计公司有哪些dede网站搬家
  • 重庆建网站优化做超链接的网站
  • 山西建设厅官方网站在线网页制作diy
  • 西安网站建站做国际贸易有哪些平台
  • 小程序后台开发教程温州快速排名优化
  • 新乡网站建设找哪家wordpress php 链接地址
  • 没有域名可以做网站北京网站搜索优化
  • 做门户网站建设多少钱如何制作一个好网站
  • 大兴网站建设优化seo广州网站优化外包
  • 做拼图字的网站wordpress 后台主题
  • 佛山附近做网站的公司网站开发企业培训
  • 网站开发名片怎么做公司网站生成二维码
  • 宣城市网站建设wordpress给文章添加固定字段
  • 锦州市网站建设视频网站VIP卡怎么做赠品
  • 常用来做网站首业的是摄影网站设计与制作
  • 网站布局教程长沙英文网站建设公司
  • 成都医院手机网站建设it外包的收益主要有哪些
  • 网站管理建设落实报告找做网站的个人
  • 齐诺网站建设东莞网站建设做网站seo优化官网
  • 平凉建设局网站看案例网站
  • 网站建设服务协议书建设网站有哪些参考文献