简介 本文会介绍,记录一些使用 SUMO 做「信号灯控制」的库。主要是看一下别人是如何从仿真过程中提取特征,提取的特征有哪些,如何下发动作,动作有哪些(我会结合我的使用来说明)。 &nb...
【多智能体强化学习】MAPPO 论文笔记
本文会对多智能体强化学习算法 MAPPO 进行介绍,包含主要想法(其实主要想法和 MADDPG 很类似),和一些训练的建议。
【多智能体强化学习】MADDPG 论文笔记
本文会介绍多智能体强化学习中的 MADDPG 算法,这是一个集中训练、分布式执行的框架,基于 actor-critic 的框架,这里每个 agent 会有一个 actor 和 cr...
【多智能体强化学习】QMIX 论文笔记
本文是对多智能体强化学习中值分解方法 QMIX 的介绍。会介绍 QMIX 算法基本思想,以及进行代码解读。
【多智能体强化学习】VDN 论文笔记
本文会介绍多智能体强化学习中的Value Decomposition Networks(VDN),包括(1)主要思想,(2)核心框架,(3)VDN 的代码实现。
【多智能体强化学习】EPyMARL 使用介绍
这里介绍一个多智能体强化学习的仓库 EPyMARL,包含简单使用,各个文件夹的含义,和各个文件运行之后的关联。后续会基于这个仓库来学习不同的多智能体强化学习算法。
强化学习资料收集整理
这里会收集一些强化学习的资料,方便在学习过程中使用。这里会分为初学强化学习的资料,和进阶的时候用到的资料。
Eureka: Human-Level Reward Design via Coding Large Language Models 阅读
论文 Eureka: Human-Level Reward Design via Coding Large Language Models 的阅读,主要是利用 LLM 来给强化学习...
Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning 阅读
论文 Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning 的阅读。本文提出了...
Reward Design with Language Model 阅读
文章 Reward Design with Language Model 的介绍,本文主要研究了如何利用语言模型(LLM)在强化学习(RL)环境中生成与目标对齐的奖励信号。