机器学习服务器使用一些命令记录

  • A+
所属分类:深度学习
摘要这里会记录一些自己在使用服务器的时候的一些命令,方便查询。在实际跑的时候会使用到这些命令。

前言

这里会记录一些自己在使用服务器的时候的一些命令,方便查询。

服务器环境问题

Jupyter Notebook远程

  1. jupyter notebook --ip='IP地址' --NotebookApp.token='' --NotebookApp.password=''

本地浏览器打开jupyter notebook

有的时候我们不小心关闭了浏览器上的jupyter notebook的tab标签, 我们只需要输入下面的地址既可以再次打开。

  1. http://localhost:8888/tree

查看显卡使用情况

  1. nvidia-smi
机器学习服务器使用一些命令记录

结束进程(释放cuda memory)

可以查找所有的python的进程.

  1. ps -ef | grep python
  1. [root@localhost test6]# ps -ef|grep ssh
  2. root      2720     1  0 Nov02 ?        00:00:00 /usr/sbin/sshd
  3. root     17394  2720  0 14:58 ?        00:00:00 sshd: root@pts/0
  4. root     17465 17398  0 15:57 pts/0    00:00:00 grep ssh

接着根据对应的PID进行kill即可.

  1. kill -9 PID

解决ssh登录慢

如下进行文件的修改

  1. vim /etc/ssh/sshd_config

修改下面的两行,均改为no即可。

  1. UseDNS no
  2. GSSAPIAuthentication no

接着重启服务,再次尝试,会发现快了很多。

  1. service sshd restart

python虚拟环境

  1. source activate tf-gpu

防火墙策略

有的时候我们需要关闭服务器的默认的防火墙来保证连接.

  1. 关闭防火墙 systemctl stop firewalld.service
  2. 配置开机不自启动防火墙 systemctl disable firewalld.service
  3. 查看防火墙状态 systemctl status firewalld.service
  4. 允许TCP的8080端口访问
  5. firewall-cmd --permanent --zone=public --add-port=8080/tcp
  6. 开启防火墙 systemctl start firewalld.service
  7. 配置开机不自启动防火墙 systemctl enable firewalld.service

服务器跑脚本一些注意事项

上面是关于一些服务器的环境的问题, 这里介绍一下关于跑脚本的时候要注意的一些问题.

程序后台运行

大部分情况下, 我们需要程序在后台运行, 也就是关闭终端之后程序不会断掉, 我们可以使用以下的方式进行操作.

  1. $ nohup python python_script.py > my_output.log &
  2. $ tail -f my_output.log

使用top命令查看正在执行的程序.

参考链接:

记录每一个Epoch的时间

一般情况下, 我会将每一个epoch运行的时间保存下来, 方便查看程序运行的情况, 是否还在运行, 以及运行一个epoch需要多久的时间.

  1. from datetime import date,datetime
  2. t = datetime.now() #获取现在的时间

使用Log保存为日志

通常情况下, 会使用logging进行日志的保存, 这样程序运行结束之后也可以进行结果的查看.

  1. import logging
  2. # 将日志保存到文件
  3. logging.basicConfig(filename='logger.log',level=logging.INFO)
  4. # 进行日志的输出
  5. logging.info('Time {}, Epoch [{}/{}], Step [{}/{}]'.format(t, epoch, num_epochs, i+1, total_step))

每一个Epoch保存模型

这个需要在每一次epoch结束之后, 我们进行保存即可.

  1. torch.save(G.state_dict(), './models/G.ckpt')

 

  • 微信公众号
  • 关注微信公众号
  • weinxin
  • QQ群
  • 我们的QQ群号
  • weinxin
王 茂南

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: