一橋大学の台坂です。いつもお世話になっております。
slurm の grand, mem64, mem32のpartitionがdownしております。復旧して頂けると助かります。
また、t001k09n02 も不調のようです。こちらも見て頂けると助かります。
台坂先生
エクサ平原です。
お世話になります。
対応遅くなり申し訳ありません。
ご指摘のPartitonに絡むノードを復旧しました。
現在すべてアクティブです。
t001k09もブリックごと再起動済みです。
宜しくお願いいたします。
平原様、
一橋大学のいつもお世話になっております。
sinfo を実行すると、以前、mem32, mem64, grand がダウンしているようです。
再度、確認をお願いできるでしょうか?
お手数をおかけしますが、よろしくお願いいたします。
台坂先生
失礼しました
現在すべてのPartitonがupになっています。
宜しくお願いします。
平原様、
一橋大学のいつもお世話になっております。
up になっていることを確認しました。どうもありがとうございました。
平原様
一橋大学の台坂です。度々すみません。
t001k09n02 のSC2のいずれかのボードが不調のようです。計算がまた止まってしまいました。
調整をお願いいたします。
台坂先生
対応が遅くなり申し訳ありません。
t001k09ですが、先ほど調整を終了し、こちら側のテストをパスしましたので
SlurmをDrainからIdleへ戻しております。
宜しくお願いいたします。
平原様
一橋大学の台坂です。どうもありがとうございます。
mem64 のパーティションで、MPIがうまく起動できないようです。
slurm scriptで指定しているnode list 先頭のノードで、以下のようになっているようです。
daisaka@t001k02n01's password:
daisaka 76280 97.8 0.0 431528 15492 ? Rl 17:22 40:51 mpirun ./x47_v2_Q_fixtest_allinput_pzoclmpi 200 1 200 200 200 200 200 200 1.15 -82 1.2 0.0 1.0 0.0 1.0 0.0 1.0 0.0 1.0 0.0 1.0 0.0 1.0 0.0 1.0 3.75 0.0 0.0 1.0 1.0 0.0 0.0 0.0 0.0
daisaka 76372 0.0 0.0 0 0 ? Z 17:23 0:00 [x47_v2_Q_fixtes] <defunct>
daisaka 76375 0.0 0.0 0 0 ? Z 17:23 0:00 [x47_v2_Q_fixtes] <defunct>
daisaka 76376 0.0 0.0 0 0 ? Z 17:23 0:00 [x47_v2_Q_fixtes] <defunct>
daisaka 76377 0.0 0.0 0 0 ? Z 17:23 0:00 [x47_v2_Q_fixtes] <defunct>
daisaka 76378 0.0 0.0 0 0 ? Z 17:23 0:00 [x47_v2_Q_fixtes] <defunct>
daisaka 76379 0.0 0.0 0 0 ? Z 17:23 0:00 [x47_v2_Q_fixtes] <defunct>
daisaka 76380 0.0 0.0 0 0 ? Z 17:23 0:00 [x47_v2_Q_fixtes] <defunct>
daisaka 76381 0.0 0.0 0 0 ? Z 17:23 0:00 [x47_v2_Q_fixtes] <defunct>
お手数ですが、確認をお願いできると助かります。
追伸ですが、batch でも走らなくなってしまいました。
slurm log に、
A process or daemon was unable to complete a TCP connection
to another process:
Local host: t001k01n01
Remote host: t001k09n01
This is usually caused by a firewall on the remote host. Please
check that any firewall (e.g., iptables) has been disabled and
try again.
------------------------------------------------------------
[t001k02n01:76855] Error: pml_yalla.c:97 - recv_ep_address() Failed to receive EP address
等々、エラーがでていました。
また、es1fe のレスポンスがちょっと悪い感じがあります。
何か、ネットワークワークの問題はありませんか?
台坂先生
本日15時くらいからes1feのレスポンスが遅くなっていることは認識しており、現在調査してもらっています。
宜しくお願いいたします。
レスポンスが遅いのはネットワークではないのですが、原因が分からなく、埒が明かないので、
今利用者もいないようなので、明朝F/Eマシンの再起動を試みようかと思います。
台坂先生
エクサ平原です。
フロントエンドの再起動でレスポンスの遅延は復旧いたしました。
mem64、mem32でのMPIの動作も確認しております。
宜しくお願いいたします。
平原様、
一橋大学の台坂です。対応をどうもありがとうございます。
jobは走るようになりました。es1feのレスポンスも良くなりました。
お手数をおかけしました。