3-贝尔曼最优公式

3-贝尔曼最优公式

Motivating example 当一个Policy不够好的时候,我们应该怎么改进这个Policy? 使用action value来进行改进,当选择新的actio

Motivating example

image-20231220154846563

当一个Policy不够好的时候,我们应该怎么改进这个Policy?

使用action value来进行改进,当选择新的action时,得到的action value可以变大,则可以改动policy

image-20231220155506565

最优的定义

image-20231220155639161

如果在所有的状态S,Π1所得到的state value都是大于Π2的,那么Π1的策略就是比Π2要更好的

image-20231220155818274

定义就是,对于每一个state ,在采取这个policy时,每一个state的state value都大于另一个,则说明这个policy更好

贝尔曼最优公式

image-20231220160438713

先求解出一个最优的Π,然后通过这个Π来做贝尔曼公式计算state value

image-20231220160727933

最优化部分求解

image-20231220161005340

求解最优化问题的思路包括:

  1. 首先给定一个确切的V(s')从而得到一个确切的q(s,a),这样上面的贝尔曼最优公式中就只含有了一个未知数,也就是Π

  2. 假设有三个police分别为c1,c2,c3,那么这里的c1+c2+c3=1,并且c1,c2,c3都大于0

  3. 我们先假设q1,q2,q3中最大的时q3,那么就只有当c3的概率为1时,总体的state value才会达到最大值

image-20231220162815711

则最优值就是得到一个最大的q值,也就是选取最大的action value时的概率为1,不是最大的action value的概率为0

求解贝尔曼最优公式

数学基础

image-20231220163324977

  • 不动点(Fixed point):如果一个值x,在经过了函数的映射之后又回到了自己,则说明x是一个不动点

  • 收缩函数(Contraction function):x1和x2进行函数映射之后,他们之间的举例要比原来要小,则成为这个函数f(x)叫收缩函数

image-20231220163813578

对于一个形如x=f(x)的函数,如果f是一个收缩函数,则

  • 一定纯在一个不动点x',使得f(x')=x'

  • 并且这个x‘是唯一存在的

  • 如果设定一个算法,xk+1 = f(xk)则当一直迭代下去,xk = x'

例子

image-20231220164204091

求解过程

证明贝尔曼最优公式是一个满足条件的收缩函数

image-20231220164315027

image-20231220164341138

求解

image-20231220164445995

image-20231220164557589

  • 首先有一个估计值Vk(s)

  • 然后对于每一个s求解qk(s,a),在求解时所有的东西都是已知的,那个Vk(s')时通过估计值给出的

  • 基于qk选择一个ak*,这个就是可以得到最大的qk的那个ak

  • 然后Vk+1(s)就等于这个最大的qk的值

例子

image-20231220165325538

这里的q-value其实就是一个同一个state下的不同的action value的值

image-20231220165532114

  • 通过先设置V0时各个state的 action value

  • 计算这些action value,然后选出最大的action value

  • 然后选择那个action,则V1时刻的 最大的action value为1.9

  • 然后通过设置K=1可以进行不断的迭代

image-20231220170118643

根据上面的法则,函数最终会收敛到一个不动点,所以这个地方最后会不断的迭代直到收敛

又因为每次都是取最大值,如果想要最大,就证明这个策略可以得到更多的reward

所以最后就可以迭代出一个最优策略

贝尔曼最优公式解的最优性

image-20231220170831442

贝尔曼最优公式是一个特殊的贝尔曼公式,也就是当取到了最优策略时的贝尔曼公式

image-20231220171105947

image-20231220171122587

分析最优策略

image-20231220171409266

黑色的量是需要我们自己求出来的,红色的量是给定的

这其中说明了黑色的量是根据红色的量进行计算出来的,所以当红色的这些量进行改变时,黑色的量会有哪些改变呢?

这其中的最优策略选择了穿过障碍物,因为当穿过障碍物时,得到的return更大(更近,并且进入障碍物只扣一分导致了这个结果)

image-20231220171925787

调小了discount rate之后,就更加远视了

image-20231220172115266

当discount rate=0时,就说明只关注当前的reward了

image-20231220172318234

增加了闯入障碍物的惩罚,也会绕开障碍物

image-20231220172449717

更关键的是相对的reward的差异,而不是reward的绝对值大小

image-20231220173028012

因为discount rate,所以最后得到的路径会尽量的不转弯

总结


Comment