强化学习论文 Eureka: Human-Level Reward Design via Coding Large Language Models 阅读 论文 Eureka: Human-Level Reward Design via Coding Large Language Models 的阅读,主要是利用 LLM 来给强化学习... 10月29日评论 阅读全文
强化学习论文 Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning 阅读 论文 Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning 的阅读。本文提出了... 10月20日评论 阅读全文
强化学习论文 Reward Design with Language Model 阅读 文章 Reward Design with Language Model 的介绍,本文主要研究了如何利用语言模型(LLM)在强化学习(RL)环境中生成与目标对齐的奖励信号。 07月09日评论 阅读全文
强化学习论文 Deep Reinforcement Learning from Human Preferences 阅读 本文是对 Deep Reinforcement Learning from Human Preferences 的论文阅读,这篇文章介绍了一种从人类反馈中学习奖励函数的方法。感觉是... 06月26日评论 阅读全文
强化学习论文 ImageReward: Learning and Evaluating Human Preferences for Text-to-Image Generation 阅读 本文是 Reward Model 在 Text-to-Image 上的一个应用,训练 RM 模型来判断模型生成的结果如何。本文作者主要对 text-to-image 领域提出了一个... 06月24日评论 阅读全文
强化学习论文 RLHF 技术笔记 本文会介绍 RLHF 的相关内容,主要从原理层面,介绍 RLHF 的三个步骤,(1)预训练语言模型;(2)训练奖励模型;(3)使用强化学习微调语言模型;也会包含 InstructG... 06月20日评论 阅读全文
SUMO 资料 SMARTS 快速上手使用 这里对 SMARTS 进行了简单的介绍。主要是包含(1)SMARTS 的安装;(2)SMARTS 中的一些概念:SMARTS Env,对不同 RL 框架的接口;SMARTS RL ... 04月21日评论 阅读全文
强化学习论文 Deep TAMER: Interactive Agent Shaping in High-Dimensional State Spaces 阅读 本文是文章《Deep TAMER: Interactive Agent Shaping in High-Dimensional State Spaces》的相关阅读笔记。本文主要介... 04月06日评论 阅读全文