RLHF 技术笔记 强化学习论文

RLHF 技术笔记

本文会介绍 RLHF 的相关内容,主要从原理层面,介绍 RLHF 的三个步骤,(1)预训练语言模型;(2)训练奖励模型;(3)使用强化学习微调语言模型;也会包含 InstructG...
阅读全文