1-强化学习基本概念-ANDONG的博客

在一个网格地图中进行强化学习的理解，网格分为四种情况，分别为可通行，障碍物，目标位置与边界

在移动时可以进行四通移动，也就是上下左右移动

目的是为了找到一个好的路径到达目标位置

怎么理解好的呢？尽量的避免障碍物，转弯与进入边界

state(状态)

State其实就是指agent在环境中的状态

在这张图中，State就相当于是一个location（S1，S2，S3，S4 ...），而State space就是这些location的集合

Action(行动)

在每一个State都会有一些可能的Action

比如在这个例子中，Action就是指在一个State(方格)中，可能行动的方向，比如a1,a2,a3,a4,a5分别对应了五种不同的可能性

所有这些可能性的集合就叫做Action space of a state，所以在这个地方A(si)代表了A是si的一个函数，因为对于每一个si都会有不同的A

state transition(状态转移)

当采取action时，agent会从一个state转移到另一个state，这个就叫做state transition

比如这个地方，当S1采取了a2(向右走)就会到达S2，当采取a1时则会留在s1，因为向上是边界，只能保持在原地

state transition 定义了与环境的交互

对于障碍物区域，进行设置为，当state走入障碍物时，可以走进去，但是会被弹出来

可以进行用表格表示一个state transition，但是这个情况只能表示一个确定的状态，也就是当S1选取不同的action之后，得到的下一个状态是确定的

State transition probability(状态转移可能性)

这个地方，可以看为，我目前在S1，take action a2，走到S1的概率为1，走到Si的概率为0，因为在这个位置是一个绝对的情况

也就是

P(s_i|s_j,a_k)

的意思就是说，在sj的位置上take action ak到达si的概率为P

Policy(策略)

Policy用于告诉agent，在哪一个state时take 哪种action

比如在图中所有的绿色箭头和圆圈就是Policy

Π在强化学习中指的就是条件概率

比如在这个地方

Π(a_i|s_j)

就是代表了在状态sj时选取action ai的概率为多少

在一个状态下所有的概率之后应该等于1

对于一个不确定情况的例子，如上图所示

同样的，可以用表格对于Policy的概率进行表示

Reward(奖励)

agent在采取了一个action之后，可以得到一个Reward

如果Reward为正，则代表鼓励采取这种action

如果为负，则要对采取这种action进行惩罚(punishment)

Reward实际上是一种human-machine interface，也就是我们和agent就行交互的一种手段，通过设置不同的reward进行引导，让agent实现我们的目标

对于

p(r=-i|s_j,a_k)

这个实际上代表了在sj的状态下，take action ak得到reward为-i的概率为P

Reward始终取决于当前的state所take的action，而和下一个状态无关

Trajectory and Return

Trajectory实际上是一个state-action-reward所形成的一个链

每一个Trajectory都带有一个return，也就是所有在这个trajectory中所有的reward加起来，就是总的一个return

return就是一个用于比较Trajectory好与坏的标准

Discounted return

在target时，会一直加+1+1+1最终发散掉，所以我们需要找到一个方法避免一个无限的reward

这时候就要引入一个在[0,1]的discount rate γ ，然后在每一个return的前面都乘上γ的幂乘，就可以让最后的结果变得很小从而不至于发散，并且可以引导函数通过最小的步数到达终点（因为越靠前则权重越大）

Episode

当遵循策略与环境交互时，代理可能会在某些终端状态停止。由此产生的轨迹被称为一个Episode(或试验)。

实际上来说就是环境中从起点到终点的一条总的trajectory

Markov decision process(MDP)

Set：

State：所有状态的集合
Action：对于每所有State的所有action的集合
Reward：对于每一个action所能获得reward的集合

Probability distribution：

State transition probability：在状态s选择action a之后到达s‘的概率
p(s'|s,a)
Reward probability：在状态s选择action a之后获得reward r的概率
p(r|s,a)

Policy

在状态s，选择action a的概率是多少

Π(a|s)

Markov property

不考虑历史，只考虑当前状态和当前所take的action

Markov decision process(MDP)中的

Markov：代表与历史无关的性质

decision：代表需要选取Policy

process：拥有Set和Probability distribution

右边的这个图代表的是markov process(MD),因为在这个图中的policy是没有确定的