Pytorch快速入门 使用 huggingface-cli 下载模型 本文介绍了如何使用 huggingface-cli 命令行工具下载 Hugging Face 上的模型,并结合 nohup 实现后台下载及查看下载进度。 05月20日评论 阅读全文
强化学习论文 【多智能体强化学习】MAPPO 论文笔记 本文会对多智能体强化学习算法 MAPPO 进行介绍,包含主要想法(其实主要想法和 MADDPG 很类似),和一些训练的建议。 04月08日评论 阅读全文
强化学习论文 【多智能体强化学习】MADDPG 论文笔记 本文会介绍多智能体强化学习中的 MADDPG 算法,这是一个集中训练、分布式执行的框架,基于 actor-critic 的框架,这里每个 agent 会有一个 actor 和 cr... 04月07日评论 阅读全文
强化学习论文 【多智能体强化学习】VDN 论文笔记 本文会介绍多智能体强化学习中的Value Decomposition Networks(VDN),包括(1)主要思想,(2)核心框架,(3)VDN 的代码实现。 04月05日评论 阅读全文
强化学习环境 【多智能体强化学习】EPyMARL 使用介绍 这里介绍一个多智能体强化学习的仓库 EPyMARL,包含简单使用,各个文件夹的含义,和各个文件运行之后的关联。后续会基于这个仓库来学习不同的多智能体强化学习算法。 04月02日评论 阅读全文
强化学习论文 Eureka: Human-Level Reward Design via Coding Large Language Models 阅读 论文 Eureka: Human-Level Reward Design via Coding Large Language Models 的阅读,主要是利用 LLM 来给强化学习... 10月29日评论 阅读全文
强化学习论文 Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning 阅读 论文 Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning 的阅读。本文提出了... 10月20日评论 阅读全文
强化学习论文 Reward Design with Language Model 阅读 文章 Reward Design with Language Model 的介绍,本文主要研究了如何利用语言模型(LLM)在强化学习(RL)环境中生成与目标对齐的奖励信号。 07月09日评论 阅读全文