action value就是s和a都确定情况下的贝尔曼公式

贝尔曼最优公式 -一个特例

更新policy ，用action value最大的策略

迭代actionvalue得到最优策略这个迭代的过程中，我发现actionvalue竟然是从target逐渐向 src开始扩散的，正常情况系下我们不是应该不知道target在哪才对

action value 的计算会被policy影响吗？肯定的呀我想什么呢，公式后半部分都带 $v_{π} (s)$ 了 $π^{*}$ 所有state value都比其他策略大

如何用贝尔曼最优公式理解迭代action value 就能拿到最优策略的这个过程？ fixed point/contraction mapping theorem

上面说的这个理论实际上贝尔曼最优公式就符合它的应用条件

v = f(v), 并且还有一个fixed point，那就是？好吧其实我不知道

但是反正这个fixed point最后就是这个最优的策略 notion-page-monte-carlo 1 最后提出了一个问题，是不是有必要在bot每走一步都给一个负数reward，让bot走最短路径，其实没有必要，在 $γ$ 中其实已经隐含了这个条件，越晚拿到奖励，其实对应获得的reward就会越小

value iteration/policy iteration algorithm

(truncated policy iteration) 如何用value iteration去找最优策略

value iteration

随意设定一个初始 $v_{k}$ ,然后计算 $q_{k} (s, a)$ ，这样就能用一个贪婪策略更新 $π_{s}$ ，简单来说就是取qk最大的方向，将s下的action的概率为 1，基于这个 $π_{s}$ 来更新 $v_{k + 1}$ ，大致这么理解，最后其实就是取最大的qk作为vk+1

policy iteration

感觉就是将valueiteration的顺序换了一下，先估计一个 $π_{k}$ 然后算出v, 用v去迭代出 $π_{k + 1}$ , 如此循环，还是建立在contraction mapping theorem上的

ChengYongru'ML

Recent Writing

Claude Code marketplace

WSL连接超时问题修复

openclaw + 飞书机器人踩坑记录

git bare worktree workflow

Recent Notes

2026-02-09

2025-10-11

强化学习入门之路1