强化学习 | 文艺数学君

【多智能体强化学习】MAPPO 论文笔记

【多智能体强化学习】MAPPO 论文笔记

本文会对多智能体强化学习算法 MAPPO 进行介绍，包含主要想法（其实主要想法和 MADDPG 很类似），和一些训练的建议。

04月08日评论

【多智能体强化学习】MADDPG 论文笔记

【多智能体强化学习】MADDPG 论文笔记

本文会介绍多智能体强化学习中的 MADDPG 算法，这是一个集中训练、分布式执行的框架，基于 actor-critic 的框架，这里每个 agent 会有一个 actor 和 cr...

04月07日评论

【多智能体强化学习】QMIX 论文笔记

【多智能体强化学习】QMIX 论文笔记

本文是对多智能体强化学习中值分解方法 QMIX 的介绍。会介绍 QMIX 算法基本思想，以及进行代码解读。

04月06日评论

【多智能体强化学习】VDN 论文笔记

【多智能体强化学习】VDN 论文笔记

本文会介绍多智能体强化学习中的Value Decomposition Networks（VDN），包括（1）主要思想，（2）核心框架，（3）VDN 的代码实现。

04月05日评论

【多智能体强化学习】EPyMARL 使用介绍

【多智能体强化学习】EPyMARL 使用介绍

这里介绍一个多智能体强化学习的仓库 EPyMARL，包含简单使用，各个文件夹的含义，和各个文件运行之后的关联。后续会基于这个仓库来学习不同的多智能体强化学习算法。

04月02日评论

强化学习资料收集整理

强化学习资料收集整理

这里会收集一些强化学习的资料，方便在学习过程中使用。这里会分为初学强化学习的资料，和进阶的时候用到的资料。

03月20日评论

Eureka: Human-Level Reward Design via Coding Large Language Models 阅读

Eureka: Human-Level Reward Design via Coding Large Language Models 阅读

论文 Eureka: Human-Level Reward Design via Coding Large Language Models 的阅读，主要是利用 LLM 来给强化学习...

10月29日评论

Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning 阅读

Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning 阅读

论文 Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning 的阅读。本文提出了...

10月20日评论

Reward Design with Language Model 阅读

Reward Design with Language Model 阅读

文章 Reward Design with Language Model 的介绍，本文主要研究了如何利用语言模型（LLM）在强化学习（RL）环境中生成与目标对齐的奖励信号。

07月09日评论

Deep Reinforcement Learning from Human Preferences 阅读

Deep Reinforcement Learning from Human Preferences 阅读

本文是对 Deep Reinforcement Learning from Human Preferences 的论文阅读，这篇文章介绍了一种从人类反馈中学习奖励函数的方法。感觉是...

06月26日评论

目录

繁
本页二维码