Reinforcement Learning(强化学习)-Windy Gridworld Playground环境介绍

王茂南

3317
文章

75
评论

2020年6月9日07:37:02

评论1 1237字阅读4分7秒

摘要这一篇文章介绍强化学习中的一个环境Windy Gridworld Playground, 主要围绕observation, action和reward三个详细展开, 并给出模拟的例子.

文章目录(Table of Contents)

简介

这里介绍一个新的强化学习的环境, Windy Gridworld Playground. 之前我们讲过Reinforcement Learning(强化学习)-BlackJack环境介绍. 但是因为我们并不知道blackJack的最优策略是什么, 所以有的时候我们无法判断最后给出的结果的好坏, 于是这里介绍一个新的环境, Windy Gridworld Playground.

参考资料

可以查看下面的链接, 里面有详细的notebook (在第5周的内容里面): 强化学习_Windy Gridworld Playground环境测试

Windy Gridworld Playground环境介绍

总的一个环境如下所示, 我们从S出发, 要达到G. 有上下左右四个方向可以走. 下面格子0, 1, 2表示风力, 也就是我们在不同的列会受到风力的影响, 导致实际的方向和我们走的会有一些区别.

详细的每个格子的编号如下图所示:

下面是文字版, 可以方便复制, 也是方格的序号的对应关系.

00, 01, 02, 03, 04, 05, 06, 07, 08, 09
10, 11, 12, 13, 14, 15, 16, 17, 18, 19
20, 21, 22, 23, 24, 25, 26, 27, 28, 29
30, 31, 32, 33, 34, 35, 36, 37, 38, 39
40, 41, 42, 43, 44, 45, 46, 47, 48, 49
50, 51, 52, 53, 54, 55, 56, 57, 58, 59
60, 61, 62, 63, 64, 65, 66, 67, 68, 69

详细介绍observation, action和reward

接下来我们详细介绍observation, action和reward:

observation为格子所在的编号, 起始的编号是30;
action的组成: 有4个动作, 分别是上下左右, 数字与action的对应关系如下;
- 0, UP
- 1, RIGHT
- 2, DOWN
- 3, LEFT
reward: 每走一步reward=-1, reward越大也就是走的步数越少;