文章 Reward Design with Language Model 的介绍,本文主要研究了如何利用语言模型(LLM)在强化学习(RL)环境中生成与目标对齐的奖励信号。
强化学习论文
3464 75 1.6M 886
强化学习论文
北邮人论坛十大
北邮人论坛十大
北邮人论坛十大
北邮人论坛十大
北邮人论坛十大
北邮人论坛十大
北邮人论坛十大
北邮人论坛十大
北邮人论坛十大
本页二维码