Reinforcement Learning(强化学习) – MuJoCo 环境介绍

王 茂南 2023年1月24日07:52:19
评论
1 1691字阅读5分38秒
摘要本文主要对 MuJoCo 环境进行简单的介绍。目前 Mujoco 最新版已经开源免费,不再需要激活许可。

简介

Mujoco 是旨在促进机器人、生物力学、图形和动画等需要快速准确模拟领域研究和开发的物理引擎,常来作为连续空间强化学习算法的基准测试环境。它是一系列环境的集合(共有 20 个子环境),常用的子环境有 Ant, Half Cheetah, Hopper, Huanmoid, Walker2D 等等,下图所示为其中 Hopper 游戏。

Reinforcement Learning(强化学习) – MuJoCo 环境介绍

参考资料

 

MuJoCo 的介绍

MuJoCo 的安装

Mujoco 最新版目前已经开源免费,不再需要激活许可。你可以使用 Deepmind 最新的 mujoco 库,或使用 OpenAImujoco-py

如果安装 mujoco>=2.2.0 , 可以通过如下方法:

  1. pip install dm_control
  2. pip install mujoco
  3. pip install gym

安装完毕之后,可以使用下面的命令验证安装是否成功:

  1. import gym
  2. env = gym.make('Hopper-v3')
  3. obs = env.reset()
  4. print(obs.shape)  # (11, )

 

MuJoCo 环境的介绍

观察空间:物理信息组成的向量(3D position, orientation, and joint angles etc. ),具体尺寸为(N, ),其中N根据环境决定,数据类型为float64

动作空间:物理信息组成的向量 (torque etc.),一般是大小为 N 的连续动作空间。如在 Hopper 环境中,N 的大小为 3,动作在 [-1,1] 中取值。

奖励空间:游戏得分,根据具体游戏内容不同会有非常大的差异,一般是一个float数值。

 

MuJoCo 的简单使用

具体使用的方式和其他的 gym 环境是一样的。下面是一个简单的例子:

  1. import time
  2. import gym
  3. if __name__ == '__main__':
  4.     env = gym.make("Hopper-v3")
  5.     obs_space = env.observation_space.shape
  6.     action_space = env.action_space.shape
  7.     print(f'Obs: {obs_space}, Action: {action_space}.')
  8.     state = env.reset()
  9.     done = False
  10.     while not done:
  11.         env.render()
  12.         action = env.action_space.sample()
  13.         time.sleep(.1)
  14.         state, reward, done, _ = env.step(action)
  15.         print(action, done)

 

 

可能出现的问题

ERROR: GLEW initalization error: Missing GL version

在使用 env.render() 的时候可能会出现上面的问题。我们首先确保 libglew-dev 已经安装了。使用下面的命令尝试:

  1. sudo apt-get update -y
  2. sudo apt-get install -y libglew-dev

接着添加环境变量即可:

  1. export LD_PRELOAD=/usr/lib/x86_64-linux-gnu/libGLEW.so

添加完毕之后,记得重启终端,并使用 echo $LD_PRELOAD 来进行验证。参考资料GLEW initalization error: Missing GL version

 

X11/Xlib.h not found in Ubuntu

使用下面的命令进行安装即可:

  1. sudo apt install libx11-dev

 

  • 微信公众号
  • 关注微信公众号
  • weinxin
  • QQ群
  • 我们的QQ群号
  • weinxin
王 茂南
  • 本文由 发表于 2023年1月24日07:52:19
  • 转载请务必保留本文链接:https://mathpretty.com/15626.html
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: