いつもお世話になっております。
睡蓮2ですが、昨日からテストを繰り返していたら、ほとんどのノードがdown状態になってしまいました。
現状、4ノードしか使用できません。
連休の谷間で大変申し訳ありませんが、復旧して頂けると助かります。
どうも、アプリケーションでホスト側で大量のメモリを使用した場合に、ホストがdown してしまい、復帰できない傾向があるようです。
以上、よろしくお願いいたします。
エクサ平原です。
今朝ノードを復旧してもらいました。
現在
t001k07n04←(元から不具合有りでダウンしている)
t001k11n02,03 がダウンしており、調査中です。
宜しくお願いします
平原様、
一橋大学の台坂です。いつもお世話になっております。
早々の対応をどうもありがとうございました。
また、申し訳ありませんが、mem64 でテスト中にメモリ不足が発生してしまい、ホストがダウンしてしまいました。対処して頂けると助かります。
お手数をおかけて申し訳ありませんが、よろしくお願いいたします。
エクサ平原です
t001k07n04
t001k11n02,03
以外をidleへ復旧させました。
平原様、
一橋大学の台坂です。どうもありがとうございます。お手数をおかけしました。
台坂先生
現在t001k11n[01-04]をメンテナンスのためDownにさせていただいています。
現在のDownNodeは
t001k07n04
t001k11n[01-04]
です。ご迷惑おかけしますが、ご了承ください。
宜しくお願いします。
平原様、
承知しました。気が付かずにjobを投入してしまって申し訳ありません。
よろしくお願いいたします。
台坂博
台坂先生
先ほど流されたJobは該当ブリックには当たらないことを確認後にDownしましたので影響は無いです。
ただ先ほどのJobの結果現在またDownNodeが出てきています
t001k02n02
k03n01
k04n01,02
k08n01
現在復旧中です
t001k02n02
k03n01
k04n01,02
k08n01
復旧させました
どうもありがとうございました。
jobを投入します。