Motivating example 当一个Policy不够好的时候,我们应该怎么改进这个Policy? 使用action value来进行改进,当选择新的actio
为什么return是重要的 return是一个用来评估policy的好与坏的工具,只有通过比较return才能比较出policy的好与坏 return的计算
在一个网格地图中进行强化学习的理解,网格分为四种情况,分别为可通行,障碍物,目标位置与边界 在移动时可以进行四通移动,也就是上下左右移动 目的是为了找到一个好的路径到达目标位置