通知
すべてクリア

please reboot system


台坂博
(@daisaka)
Estimable Member
結合: 9年前
投稿: 116
Topic starter  

 一橋大学の台坂です。いつもお世話になっております。

多くのノードが不調になってしまいました。システムのrebootをお願いできるでしょうか?

 

今回は、どうも、MPI関係がおかしくなっているように見えます。

ホストの方の問題の可能性がありそうですね。ホスト交換で安定するとよいのですが。


引用
Shinichi Hirahara
(@hira)
Estimable Member Admin
結合: 8年前
投稿: 106
 

台坂先生

エクサ平原です。

症状確認しました。

ノード自体は稼働しておりましたが、t001k[02-05,07,09-12] にぶら下がっている

すべてのSC2モジュールが、各ノードから見えない状態になっていました。

 

予期せずノードが落ちた場合などにはSC2モジュールが見えなくなる現象はあります。

 

9/9 AM7:00ころに一旦12ブリック全部を私が再起動していますが

それ以降はノード、ブリックが再起動したり、落ちていたりした形跡はありませんでした。

昨日先生が流されていたJobはこの9/9の再起動後だと思いますので、

Jobが流れている最中に発症しているものと思われます。

 

現在リセット中です。

復旧しましたらご連絡します。

 

 


返信引用
Shinichi Hirahara
(@hira)
Estimable Member Admin
結合: 8年前
投稿: 106
 

平原です。

リセット完了しました。

とりあえず9/9の再起動後と同じ状態になっております。 (t001k08n02配下のSC2モジュールは1本エラー)

ご迷惑おかけしますが、宜しくお願いします。


返信引用
台坂博
(@daisaka)
Estimable Member
結合: 9年前
投稿: 116
Topic starter  

平原様、

どうもありがとうございます。

MPIの問題ではなく、ノードが落ちてしまっていますか。8月の停電以降、頻発している感じですね。

このとこは、2ー3日は大丈夫なのですが、それより長く使っていると問題が起きるようです。


返信引用