强化学习论文 ImageReward: Learning and Evaluating Human Preferences for Text-to-Image Generation 阅读 本文是 Reward Model 在 Text-to-Image 上的一个应用,训练 RM 模型来判断模型生成的结果如何。本文作者主要对 text-to-image 领域提出了一个... 06月24日评论 阅读全文
强化学习论文 RLHF 技术笔记 本文会介绍 RLHF 的相关内容,主要从原理层面,介绍 RLHF 的三个步骤,(1)预训练语言模型;(2)训练奖励模型;(3)使用强化学习微调语言模型;也会包含 InstructG... 06月20日评论 阅读全文
SUMO 资料 SMARTS 快速上手使用 这里对 SMARTS 进行了简单的介绍。主要是包含(1)SMARTS 的安装;(2)SMARTS 中的一些概念:SMARTS Env,对不同 RL 框架的接口;SMARTS RL ... 04月21日评论 阅读全文
强化学习论文 Deep TAMER: Interactive Agent Shaping in High-Dimensional State Spaces 阅读 本文是文章《Deep TAMER: Interactive Agent Shaping in High-Dimensional State Spaces》的相关阅读笔记。本文主要介... 04月06日评论 阅读全文
强化学习论文 CURL: Contrastive Unsupervised Representations for Reinforcement Learning 阅读 本文是阅读论文 CURL: Contrastive Unsupervised Representations for Reinforcement Learning 的一些记录。这篇... 03月16日评论 阅读全文
强化学习论文 Reinforcement Learning with Augmented Data 阅读 这篇文章尝试将数据增强的方法用在强化学习中,并取得了很好的效果。和很多其他的好论文一样,Simple idea but very very work,值得一看。 03月12日评论 阅读全文
强化学习环境 Reinforcement Learning(强化学习) – MuJoCo 环境介绍 本文主要对 MuJoCo 环境进行简单的介绍。目前 Mujoco 最新版已经开源免费,不再需要激活许可。 01月24日评论 阅读全文
强化学习论文 Action Space Shaping in Deep Reinforcement Learning 阅读 本文是对论文《Action Space Shaping in Deep Reinforcement Learning》的解读,这篇论文主要讲解了三种动作空间预处理的方式,分别是(1... 09月19日评论 阅读全文