简介
在本文中,我们介绍「多智能体强化学习(multi-agent reinforcement learning)」。最简单的多智体的学习就是是的智能体彼此独立学习。从某个 agent 的角度来看,其他的 agent 只是环境的一部分。
同时,本文也会介绍 PettingZoo 的使用(这是一个用于多智能体强化学习研究的 Python 库)。这个类似与 OpenAI Gym 的多智能体的版本。本文会使用 Tic-Tac-Toe 来介绍相关内容。
PettingZoo 的介绍
下面代码是使用 PettingZoo 与环境交互的代码:
- env.reset()
- for agent in env.agent_iter():
- observation, reward, done, info = env.last()
- action = policy(observation, agent)
- env.step(action)
env.agent_iter(max_iter=2**63):返回当前可以行动的 agent。当环境中所有的 agent 结束或是到了 max_iter 则结束;
env.last():返回当前正在执行的 agent 的 observation,reward,done 和 info;
env.step(action):当前的 agent 执行动作;
- 微信公众号
- 关注微信公众号
-
- QQ群
- 我们的QQ群号
-












评论