强化学习 - 第2页 | 文艺数学君

ImageReward: Learning and Evaluating Human Preferences for Text-to-Image Generation 阅读

ImageReward: Learning and Evaluating Human Preferences for Text-to-Image Generation 阅读

本文是 Reward Model 在 Text-to-Image 上的一个应用，训练 RM 模型来判断模型生成的结果如何。本文作者主要对 text-to-image 领域提出了一个...

06月24日评论

RLHF 技术笔记

RLHF 技术笔记

本文会介绍 RLHF 的相关内容，主要从原理层面，介绍 RLHF 的三个步骤，（1）预训练语言模型；（2）训练奖励模型；（3）使用强化学习微调语言模型；也会包含 InstructG...

06月20日评论

SMARTS 创建场景以及 Bubble

SMARTS 创建场景以及 Bubble

本文会着重介绍如何在 SMARTS 中来创建环境，以及通过 Bubble 的概念，只控制指定区域的 Agent。

04月27日评论

SMARTS 快速上手使用

SMARTS 快速上手使用

这里对 SMARTS 进行了简单的介绍。主要是包含（1）SMARTS 的安装；（2）SMARTS 中的一些概念：SMARTS Env，对不同 RL 框架的接口；SMARTS RL ...

04月21日评论

Deep TAMER: Interactive Agent Shaping in High-Dimensional State Spaces 阅读

Deep TAMER: Interactive Agent Shaping in High-Dimensional State Spaces 阅读

本文是文章《Deep TAMER: Interactive Agent Shaping in High-Dimensional State Spaces》的相关阅读笔记。本文主要介...

04月06日评论

毫末大模型 DriverGPT

毫末大模型 DriverGPT

HAOMO DriveGPT 的技术介绍，和简单的使用体验。

04月02日评论

CURL: Contrastive Unsupervised Representations for Reinforcement Learning 阅读

CURL: Contrastive Unsupervised Representations for Reinforcement Learning 阅读

本文是阅读论文 CURL: Contrastive Unsupervised Representations for Reinforcement Learning 的一些记录。这篇...

03月16日评论

Reinforcement Learning with Augmented Data 阅读

Reinforcement Learning with Augmented Data 阅读

这篇文章尝试将数据增强的方法用在强化学习中，并取得了很好的效果。和很多其他的好论文一样，Simple idea but very very work，值得一看。

03月12日评论

Reinforcement Learning(强化学习) - MuJoCo 环境介绍

Reinforcement Learning(强化学习) – MuJoCo 环境介绍

本文主要对 MuJoCo 环境进行简单的介绍。目前 Mujoco 最新版已经开源免费，不再需要激活许可。

01月24日评论

Action Space Shaping in Deep Reinforcement Learning 阅读

Action Space Shaping in Deep Reinforcement Learning 阅读

本文是对论文《Action Space Shaping in Deep Reinforcement Learning》的解读，这篇论文主要讲解了三种动作空间预处理的方式，分别是（1...

09月19日评论

3

目录

繁
本页二维码