台坂先生
平原です。
t001k08が再起動しており
t001k[01,04,09,11-12] 各ブリック上のモジュールがfailになっておりました。
現在04,08はJobがallocateされていなかったので戻しておりますが
t001k01,09,11,12ではallocateされているノードがあるためそのままにしております。
(ただ、モジュールが見えていないので、計算は間違ってしまっていると考えられます)
01,09,11,12はjobが関係していると思われますが
04,08でもjobが流されていたでしょうか?
また、停電前と停電後ではなにかしらJobの内容が変わっているのでしょうかね。
01,09,11,12に関しては、キャンセルしてリセットしてOKであればご連絡ください。
(レスポンスは遅くなってしましますが・・・)
宜しくお願いします。
平原様、
対応をどうもありがとうございます。確かに、
t001k01n[03-04]
t001k09n[03-04]
t001k11n[03-04]
で計算で計算がとまっていて、全体の計算もストップしていました。
jobはキャンセルしました。一回、全体をリブートしていただけるでしょうか?
今回のジョブ、停電前と同じものです。入力しているパラメータが若干異なりますが、同じバイナリー、カーネルを使用しております。経験的に、システム起動直後は計算が不安定になる傾向があります。
お手数をおかけしますが、よろしくお願いいたします。
台坂博
台坂先生
お待たせしました。
全体を一回リセットしました。
宜しくお願いします
平原様、
どうもありがとうございます。
jobを流してみます。
平原様、
一橋大学の台坂です。また、デバイスが見えないノードがでました。
t001k09n[01-04]
t001k10n[01-04]
です。リセットをお願いできるでしょうか?
お手数をおかけしますが、よろしくお願いいたします。
台坂先生
09,10 リセットしました。
10n01は昨夜23時くらいにModuleFailが起きていたようです。
(この段階で10のモジュールはほとんど見えなくなっていたと思われます)
宜しくお願いします。
平原様、
早々の対応をどうもありがとうございます。
昨日の23時ですか、こちらのログに何か残っていないか、確認してみます。