一橋大学の台坂です。いつもお世話になっております。
いくつかのノードが不調です。確認をお願いできるでしょうか?
問題のノードは、
t001k10n02
と、sinfoによると、
t001k01n01 .. 04
もfailしております。
よろしくお願いいたします。
一橋大学の台坂です。いつもお世話になっております。
上記ノードに追加してfailしているノードが増えてしまいました。
お忙しいとは思いますが、睡蓮2システムの確認をお願いできるでしょうか?
台坂先生
エクサ平原です。
お世話になります。
t001k04、t001k07 のダウンを復旧させました。
t001k01ですが、ブリック単位で不具合が発生しており
現在ステータスをFailとしております。
申し訳ありませんが避けてご利用いただければ幸いです。
宜しくお願いいたします。
平原様、
一橋大学の台坂です。いつもお世話になっております。休日にも関わらず対応していただきどうもありがとうございます。
t001k01 の件、了解しました。
さらに問題のノードが発生しました。
t001k10n02
です。対応をよろしくお願いいたします。
復帰していただいたノードを使います。よろしくお願いいたします。
台坂先生
エクサ平原です。
お世話になります。
t001k10n02ですが、原因調査の為に現在Slurm上でDrainにしています。
ご迷惑おかけしますが、宜しくお願いいたします。
平原様、
一橋大学の台坂です。いつもお世話になっております。
t001k09n02 も不調のようです。デバイスから結果が返ってこなくなっていました。
こちらの確認もお願いできるでしょうか?
よろしくお願いいたします。
平原様、
一橋大学の台坂です。いつもお世話になっております。度々申し訳ありません。
t001n07k01 が計算の途中で結果が返ってこなくなってしまいました。
お手数ですが、こちらも確認をお願いいたします。
台坂先生
エクサ平原です。
お世話になります。
t001k10n02、t001k07n01ですが、それぞれ配下のsc2モジュールに不具合があるようです。
現在不具合が起きているのは
t001k01n01-n04
t001k07n01
t001k10n02
です。
上記ノードはSlurm上からdrainにしています。
申し訳ありませんが、これらのノードを外してご利用ください。
ご迷惑おかけしますが宜しくお願いいたします。
平原様、
一橋大学の台坂です。対応をどうもありがとうございます。
jobをキャンセルして使用するノードを変更します。