通知
すべてクリア

slurm problem


台坂博
(@daisaka)
Estimable Member
結合: 9年前
投稿: 116
Topic starter  

一橋大学の台坂です。いつもお世話になっております。

slurm の grand, mem64, mem32のpartitionがdownしております。復旧して頂けると助かります。

また、t001k09n02 も不調のようです。こちらも見て頂けると助かります。

 


引用
Shinichi Hirahara
(@hira)
Estimable Member Admin
結合: 8年前
投稿: 106
 

台坂先生

エクサ平原です。

お世話になります。

対応遅くなり申し訳ありません。

ご指摘のPartitonに絡むノードを復旧しました。

現在すべてアクティブです。

t001k09もブリックごと再起動済みです。

 

宜しくお願いいたします。


返信引用
台坂博
(@daisaka)
Estimable Member
結合: 9年前
投稿: 116
Topic starter  

平原様、

一橋大学のいつもお世話になっております。

sinfo を実行すると、以前、mem32, mem64, grand がダウンしているようです。

再度、確認をお願いできるでしょうか?

お手数をおかけしますが、よろしくお願いいたします。

 


返信引用
Shinichi Hirahara
(@hira)
Estimable Member Admin
結合: 8年前
投稿: 106
 

台坂先生

 

失礼しました

現在すべてのPartitonがupになっています。

 

宜しくお願いします。


返信引用
台坂博
(@daisaka)
Estimable Member
結合: 9年前
投稿: 116
Topic starter  

平原様、

一橋大学のいつもお世話になっております。

up になっていることを確認しました。どうもありがとうございました。

 


返信引用
台坂博
(@daisaka)
Estimable Member
結合: 9年前
投稿: 116
Topic starter  

平原様

一橋大学の台坂です。度々すみません。

t001k09n02 のSC2のいずれかのボードが不調のようです。計算がまた止まってしまいました。

調整をお願いいたします。


返信引用
Shinichi Hirahara
(@hira)
Estimable Member Admin
結合: 8年前
投稿: 106
 

台坂先生

対応が遅くなり申し訳ありません。

t001k09ですが、先ほど調整を終了し、こちら側のテストをパスしましたので

SlurmをDrainからIdleへ戻しております。

 

宜しくお願いいたします。


返信引用
台坂博
(@daisaka)
Estimable Member
結合: 9年前
投稿: 116
Topic starter  

平原様

一橋大学の台坂です。どうもありがとうございます。

mem64 のパーティションで、MPIがうまく起動できないようです。

slurm scriptで指定しているnode list 先頭のノードで、以下のようになっているようです。

daisaka@t001k02n01's password:
daisaka 76280 97.8 0.0 431528 15492 ? Rl 17:22 40:51 mpirun ./x47_v2_Q_fixtest_allinput_pzoclmpi 200 1 200 200 200 200 200 200 1.15 -82 1.2 0.0 1.0 0.0 1.0 0.0 1.0 0.0 1.0 0.0 1.0 0.0 1.0 0.0 1.0 3.75 0.0 0.0 1.0 1.0 0.0 0.0 0.0 0.0
daisaka 76372 0.0 0.0 0 0 ? Z 17:23 0:00 [x47_v2_Q_fixtes] <defunct>
daisaka 76375 0.0 0.0 0 0 ? Z 17:23 0:00 [x47_v2_Q_fixtes] <defunct>
daisaka 76376 0.0 0.0 0 0 ? Z 17:23 0:00 [x47_v2_Q_fixtes] <defunct>
daisaka 76377 0.0 0.0 0 0 ? Z 17:23 0:00 [x47_v2_Q_fixtes] <defunct>
daisaka 76378 0.0 0.0 0 0 ? Z 17:23 0:00 [x47_v2_Q_fixtes] <defunct>
daisaka 76379 0.0 0.0 0 0 ? Z 17:23 0:00 [x47_v2_Q_fixtes] <defunct>
daisaka 76380 0.0 0.0 0 0 ? Z 17:23 0:00 [x47_v2_Q_fixtes] <defunct>
daisaka 76381 0.0 0.0 0 0 ? Z 17:23 0:00 [x47_v2_Q_fixtes] <defunct>

お手数ですが、確認をお願いできると助かります。

 

 


返信引用
台坂博
(@daisaka)
Estimable Member
結合: 9年前
投稿: 116
Topic starter  

追伸ですが、batch でも走らなくなってしまいました。

slurm log に、

A process or daemon was unable to complete a TCP connection
to another process:
Local host: t001k01n01
Remote host: t001k09n01
This is usually caused by a firewall on the remote host. Please
check that any firewall (e.g., iptables) has been disabled and
try again.
------------------------------------------------------------
[t001k02n01:76855] Error: pml_yalla.c:97 - recv_ep_address() Failed to receive EP address

等々、エラーがでていました。

また、es1fe のレスポンスがちょっと悪い感じがあります。

何か、ネットワークワークの問題はありませんか?


返信引用
Shinichi Hirahara
(@hira)
Estimable Member Admin
結合: 8年前
投稿: 106
 

台坂先生

本日15時くらいからes1feのレスポンスが遅くなっていることは認識しており、現在調査してもらっています。

宜しくお願いいたします。


返信引用
yamaura
(@yamaura)
Eminent Member Admin
結合: 8年前
投稿: 20
 

レスポンスが遅いのはネットワークではないのですが、原因が分からなく、埒が明かないので、
今利用者もいないようなので、明朝F/Eマシンの再起動を試みようかと思います。


返信引用
Shinichi Hirahara
(@hira)
Estimable Member Admin
結合: 8年前
投稿: 106
 

台坂先生

エクサ平原です。

フロントエンドの再起動でレスポンスの遅延は復旧いたしました。

mem64、mem32でのMPIの動作も確認しております。

 

宜しくお願いいたします。


返信引用
台坂博
(@daisaka)
Estimable Member
結合: 9年前
投稿: 116
Topic starter  

平原様、

一橋大学の台坂です。対応をどうもありがとうございます。

jobは走るようになりました。es1feのレスポンスも良くなりました。

お手数をおかけしました。


返信引用