首页-ANDONG的博客

笔记/强化学习

5-蒙特卡洛方法(Monte Carlo)

理论支撑(大数定理)

笔记/强化学习

4-值迭代与策略迭代

Value iteration(值迭代)

笔记/强化学习

3-贝尔曼最优公式

Motivating example 当一个Policy不够好的时候，我们应该怎么改进这个Policy？使用action value来进行改进，当选择新的actio

笔记/强化学习

2-贝尔曼公式

为什么return是重要的 return是一个用来评估policy的好与坏的工具，只有通过比较return才能比较出policy的好与坏 return的计算

笔记/强化学习

1-强化学习基本概念

在一个网格地图中进行强化学习的理解，网格分为四种情况，分别为可通行，障碍物，目标位置与边界在移动时可以进行四通移动，也就是上下左右移动目的是为了找到一个好的路径到达目标位置