通知
すべてクリア

[解決済] most of the nodes down


台坂博
(@daisaka)
Estimable Member
結合: 9年前
投稿: 116
Topic starter  

いつもお世話になっております。

睡蓮2ですが、昨日からテストを繰り返していたら、ほとんどのノードがdown状態になってしまいました。

現状、4ノードしか使用できません。

連休の谷間で大変申し訳ありませんが、復旧して頂けると助かります。

 

どうも、アプリケーションでホスト側で大量のメモリを使用した場合に、ホストがdown してしまい、復帰できない傾向があるようです。

以上、よろしくお願いいたします。


引用
Shinichi Hirahara
(@hira)
Estimable Member Admin
結合: 8年前
投稿: 106
 

エクサ平原です。

今朝ノードを復旧してもらいました。

現在

t001k07n04←(元から不具合有りでダウンしている)

t001k11n02,03 がダウンしており、調査中です。

 

宜しくお願いします


返信引用
台坂博
(@daisaka)
Estimable Member
結合: 9年前
投稿: 116
Topic starter  

平原様、

一橋大学の台坂です。いつもお世話になっております。

早々の対応をどうもありがとうございました。

また、申し訳ありませんが、mem64 でテスト中にメモリ不足が発生してしまい、ホストがダウンしてしまいました。対処して頂けると助かります。

 

お手数をおかけて申し訳ありませんが、よろしくお願いいたします。

 

 


返信引用
Shinichi Hirahara
(@hira)
Estimable Member Admin
結合: 8年前
投稿: 106
 

エクサ平原です

t001k07n04

t001k11n02,03

以外をidleへ復旧させました。

 


返信引用
台坂博
(@daisaka)
Estimable Member
結合: 9年前
投稿: 116
Topic starter  

平原様、

一橋大学の台坂です。どうもありがとうございます。お手数をおかけしました。


返信引用
Shinichi Hirahara
(@hira)
Estimable Member Admin
結合: 8年前
投稿: 106
 

台坂先生

現在t001k11n[01-04]をメンテナンスのためDownにさせていただいています。

現在のDownNodeは

t001k07n04

t001k11n[01-04]

です。ご迷惑おかけしますが、ご了承ください。

宜しくお願いします。

 

 


返信引用
台坂博
(@daisaka)
Estimable Member
結合: 9年前
投稿: 116
Topic starter  

平原様、

承知しました。気が付かずにjobを投入してしまって申し訳ありません。

よろしくお願いいたします。

台坂博


返信引用
Shinichi Hirahara
(@hira)
Estimable Member Admin
結合: 8年前
投稿: 106
 

台坂先生

先ほど流されたJobは該当ブリックには当たらないことを確認後にDownしましたので影響は無いです。

ただ先ほどのJobの結果現在またDownNodeが出てきています

t001k02n02

k03n01

k04n01,02

k08n01

現在復旧中です

 


返信引用
Shinichi Hirahara
(@hira)
Estimable Member Admin
結合: 8年前
投稿: 106
 

t001k02n02

k03n01

k04n01,02

k08n01

復旧させました


返信引用
台坂博
(@daisaka)
Estimable Member
結合: 9年前
投稿: 116
Topic starter  

どうもありがとうございました。

jobを投入します。

 

 


返信引用