计算节点状态查看sinfo

可以通过sinfo来查看计算节点的状态

$sinfo

输出如下:

PARTITION   AVAIL  TIMELIMIT  NODES  STATE NODELIST
arm            up   infinite     10  alloc taishan-arm-cpu[01-10]
purley-cpu     up   infinite      1   idle purley-x86-cpu03
purley-cpu     up   infinite      7  alloc purley-x86-cpu[01-02,04-08]
pulsar-gpu     up   infinite      1   idle inspur-gpu03
hw             up   infinite     12    mix hw-x86-cpu[01-10,12-13]
hw             up   infinite      3   idle hw-x86-cpu[11,14-15]
all-x86-cpu    up   infinite      1  drain purley-x86-cpu03
all-x86-cpu    up   infinite     12    mix hw-x86-cpu[01-10,12-13]
all-x86-cpu    up   infinite     10   idle hw-x86-cpu[11,14-15],purley-x86-cpu[01-02,04-08]
all-gpu        up   infinite      3    mix inspur-gpu[01-02],sugon-gpu01

其中各项参数的含义如下:

  • PARTITION表示分区

  • AVAIL表示分区状态

  • up标识可用

  • down标识不可用

  • TIMELIMIT表示程序运行最大时长

  • infinite表示不限制,如果限制格式为days-houres:minutes:seconds

  • NODES表示节点数

  • NODELIST为节点列表

  • STATE表示节点运行状态。可能的状态包括

  • allocated、alloc :已分配

  • completing、comp : 完成中

  • down : 宕机

  • drained、drain : 已失去活力

  • fail : 失效

  • idle : 空闲

  • mix : 混合, 节点在运行作业, 但有些空闲CPU核, 可接受新作业

  • reserved、resv : 资源预留

  • unknown、unk : 未知原因

小心

如果状态带有后缀*,表示该节点没有响应。