使用 PettingZoo 的多智能体强化学习:井字游戏

王 茂南 2025年12月13日07:56:20
评论
559字阅读1分51秒

简介

在本文中,我们介绍「多智能体强化学习(multi-agent reinforcement learning)」。最简单的多智体的学习就是是的智能体彼此独立学习。从某个 agent 的角度来看,其他的 agent 只是环境的一部分。

同时,本文也会介绍 PettingZoo 的使用(这是一个用于多智能体强化学习研究的 Python 库)。这个类似与 OpenAI Gym 的多智能体的版本。本文会使用 Tic-Tac-Toe 来介绍相关内容。

 

PettingZoo 的介绍

下面代码是使用 PettingZoo 与环境交互的代码:

  1. env.reset()
  2. for agent in env.agent_iter():
  3.     observation, reward, done, info = env.last()
  4.     action = policy(observation, agent)
  5.     env.step(action)

env.agent_iter(max_iter=2**63):返回当前可以行动的 agent。当环境中所有的 agent 结束或是到了 max_iter 则结束;

env.last():返回当前正在执行的 agent 的 observation,reward,done 和 info;

env.step(action):当前的 agent 执行动作;

 

 

  • 微信公众号
  • 关注微信公众号
  • weinxin
  • QQ群
  • 我们的QQ群号
  • weinxin
王 茂南
  • 本文由 发表于 2025年12月13日07:56:20
  • 转载请务必保留本文链接:https://mathpretty.com/14313.html
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: