本文会来介绍「注意力分数」的计算。特别的,这里我们会使用高维的 query ,key 和 value 来举例子。可以将「注意力分数」理解为 query 和 key 的相似度。会介...
注意力机制
本文会介绍「注意力机制」的相关内容。主要会介绍「非参注意力机制」和「带有参数的注意力」。这里均使用一维数据作为例子。通过本文对 query,key-value 有所了解。也知道什么...
Action Space Shaping in Deep Reinforcement Learning 阅读
本文是对论文《Action Space Shaping in Deep Reinforcement Learning》的解读,这篇论文主要讲解了三种动作空间预处理的方式,分别是(1...
在 Pytorch 中使用 Tensorboard 进行可视化
本文主要是介绍如何使用 Pytorch 结合 Tensorboard 对训练过程进行可视化。主要介绍以下的几个功能,向 Tensorboard 添加单个或是多个指标,向 Tenso...
使用 SUMO 进行仿真(5)-Detectors 介绍
在前面的内容中,我们完成了路网的搭建,车辆的生成,也了解了信号灯控制的相关内容。现在我们希望可以获得一些监测的数据。这个时候我们就可以通过设置 detector(探测器) 来完成检...
Reinforcement Learning(强化学习)- Pong 环境介绍
本文会介绍 OpenAI Gym 中的一款 Atari 游戏,Pong(类似乒乓)。会分别介绍 Observation,Action 和 Reward 的含义。最后给一个随机的 p...
Reinforcement Learning(强化学习)-LunarLander-v2 环境介绍
本文会介绍 OpenAI 中 LunarLander-v2 这个环境。会分别介绍 Observation,Action 和 Reward 的含义。最后给一个随机的 policy,来...
Reinforcement Learning(强化学习)-MountainCar 环境介绍
本文会介绍 OpenAI 中 MountainCar-v0 这个环境。主要介绍其中 action 和 observation 分别是什么。以及最后给一个简单的 policy,可以使...
使用 SUMO 进行仿真(4)-信号灯(Traffic Light)
本文会介绍 SUMO 中信号灯(Traffic Light)的相关内容。包括如何生成带有 Traffic Light 的路网,如何设置信号灯,如何利用 TraCI 来控制信号灯。
使用 SUMO 进行仿真(3)-车流的生成(Route 文件)
在本文中我们会着重介绍了车流的生成。包括生成车流的方式,也会介绍 route 文件的相关内容。生成车流的方式包括直接修改 route 文件,通过 flow 指定起点和终点,通过 t...
17