通知
すべてクリア

[解決済] something wrong on nodes of mem64 class


台坂博
(@daisaka)
Estimable Member
結合: 9年前
投稿: 116
Topic starter  

いつもお世話になっております。

mem64 class のいくつかのノードが不調です。デバイスから結果が返ってこなくなっているようで、それがトリガーとなって、MPI spinlock状態になってしまいます。というのは、squeueでは計算が実行されている状態と表示されますが、計算がまったく進まなくなります。各ノードでtopコマンドで調べると、statusがSLになってしまうプロセスがあります。

問題のありそうなノードは、

t001k02n03

t001k04n02

t001k05n01

t001k06n02

t001k07n01

too1k07n02

です。復帰は可能でしょうか?

pzcl.logやslurm-2228.out(今実行中のプロセス) には、エラー情報は出力されておりませんでした。

以上、よろしくお願いいたします。

 


引用
Shinichi Hirahara
(@hira)
Estimable Member Admin
結合: 8年前
投稿: 106
 

エクサ平原です。

今朝見たところ以下のノードが夜のうちに属するブリックごと再起動がかかったようです。

t001k02
t001k05
t001k08
t001k09
t001k12

台坂先生の言われるノードを被らないものもありますが

10時半頃Slurm上でidleに戻したところ、止まっているJobが走り出しています。

現在もSqueue上では走っているようですが、計算が進んでいない状況でしょうか?

宜しくお願いします。

 


返信引用
台坂博
(@daisaka)
Estimable Member
結合: 9年前
投稿: 116
Topic starter  

平原様、

いつもありがとうございます。

squeue とslurm logで確認すると、計算がスタックしているようです。

squeue では3時間半経過しているにもかかわらず、100秒毎に出力されるデータが2つしかありませんでした。

ジョブを一旦、切って、再投入してみます。


返信引用
Shinichi Hirahara
(@hira)
Estimable Member Admin
結合: 8年前
投稿: 106
 

台坂先生

Jobを一度切って頂くタイミングで、ブリックを再起動してみたいのですがよろしいでしょうか?

 今現在Jobを着られているようですので再起動しても良いですか?


返信引用
Shinichi Hirahara
(@hira)
Estimable Member Admin
結合: 8年前
投稿: 106
 

台坂先生

エクサ平原です。

Jobが無い事を確認し、以下を再起動し、現在全数idleです。

t001k02
t001k04
t001k05
t001k06
t001k07
t001k08
t001k09
t001k12

これで試して頂けないでしょうか?

宜しくお願いします。

 


返信引用
台坂博
(@daisaka)
Estimable Member
結合: 9年前
投稿: 116
Topic starter  

平原様、

対応をどうもありがとうございました。

使用ノードですが、間違えて以前の設定で流してしまいました。

動作しているようなので、様子をみさせてください。連絡を頂いたノードでも試しますので、

よろしくお願いいたします。

 


返信引用