いつもお世話になっております。
mem64 class のいくつかのノードが不調です。デバイスから結果が返ってこなくなっているようで、それがトリガーとなって、MPI spinlock状態になってしまいます。というのは、squeueでは計算が実行されている状態と表示されますが、計算がまったく進まなくなります。各ノードでtopコマンドで調べると、statusがSLになってしまうプロセスがあります。
問題のありそうなノードは、
t001k02n03
t001k04n02
t001k05n01
t001k06n02
t001k07n01
too1k07n02
です。復帰は可能でしょうか?
pzcl.logやslurm-2228.out(今実行中のプロセス) には、エラー情報は出力されておりませんでした。
以上、よろしくお願いいたします。
エクサ平原です。
今朝見たところ以下のノードが夜のうちに属するブリックごと再起動がかかったようです。
t001k02
t001k05
t001k08
t001k09
t001k12
台坂先生の言われるノードを被らないものもありますが
10時半頃Slurm上でidleに戻したところ、止まっているJobが走り出しています。
現在もSqueue上では走っているようですが、計算が進んでいない状況でしょうか?
宜しくお願いします。
平原様、
いつもありがとうございます。
squeue とslurm logで確認すると、計算がスタックしているようです。
squeue では3時間半経過しているにもかかわらず、100秒毎に出力されるデータが2つしかありませんでした。
ジョブを一旦、切って、再投入してみます。
台坂先生
Jobを一度切って頂くタイミングで、ブリックを再起動してみたいのですがよろしいでしょうか?
今現在Jobを着られているようですので再起動しても良いですか?
台坂先生
エクサ平原です。
Jobが無い事を確認し、以下を再起動し、現在全数idleです。
t001k02
t001k04
t001k05
t001k06
t001k07
t001k08
t001k09
t001k12
これで試して頂けないでしょうか?
宜しくお願いします。
平原様、
対応をどうもありがとうございました。
使用ノードですが、間違えて以前の設定で流してしまいました。
動作しているようなので、様子をみさせてください。連絡を頂いたノードでも試しますので、
よろしくお願いいたします。