通知
すべてクリア
Topic starter
11/09/2019 8:42 am
一橋大学の台坂です。いつもお世話になっております。
多くのノードが不調になってしまいました。システムのrebootをお願いできるでしょうか?
今回は、どうも、MPI関係がおかしくなっているように見えます。
ホストの方の問題の可能性がありそうですね。ホスト交換で安定するとよいのですが。
11/09/2019 10:02 am
台坂先生
エクサ平原です。
症状確認しました。
ノード自体は稼働しておりましたが、t001k[02-05,07,09-12] にぶら下がっている
すべてのSC2モジュールが、各ノードから見えない状態になっていました。
予期せずノードが落ちた場合などにはSC2モジュールが見えなくなる現象はあります。
9/9 AM7:00ころに一旦12ブリック全部を私が再起動していますが
それ以降はノード、ブリックが再起動したり、落ちていたりした形跡はありませんでした。
昨日先生が流されていたJobはこの9/9の再起動後だと思いますので、
Jobが流れている最中に発症しているものと思われます。
現在リセット中です。
復旧しましたらご連絡します。
11/09/2019 10:05 am
平原です。
リセット完了しました。
とりあえず9/9の再起動後と同じ状態になっております。 (t001k08n02配下のSC2モジュールは1本エラー)
ご迷惑おかけしますが、宜しくお願いします。
Topic starter
11/09/2019 11:04 am
平原様、
どうもありがとうございます。
MPIの問題ではなく、ノードが落ちてしまっていますか。8月の停電以降、頻発している感じですね。
このとこは、2ー3日は大丈夫なのですが、それより長く使っていると問題が起きるようです。