通知
すべてクリア

Some Brick Fail


Shinichi Hirahara
(@hira)
Estimable Member Admin
結合: 8年前
投稿: 106
Topic starter  

台坂先生

平原です。

t001k08が再起動しており

t001k[01,04,09,11-12] 各ブリック上のモジュールがfailになっておりました。

現在04,08はJobがallocateされていなかったので戻しておりますが

t001k01,09,11,12ではallocateされているノードがあるためそのままにしております。

(ただ、モジュールが見えていないので、計算は間違ってしまっていると考えられます)

01,09,11,12はjobが関係していると思われますが

04,08でもjobが流されていたでしょうか?

 

また、停電前と停電後ではなにかしらJobの内容が変わっているのでしょうかね。

01,09,11,12に関しては、キャンセルしてリセットしてOKであればご連絡ください。

(レスポンスは遅くなってしましますが・・・)

宜しくお願いします。


引用
台坂博
(@daisaka)
Estimable Member
結合: 9年前
投稿: 116
 

平原様、

対応をどうもありがとうございます。確かに、

t001k01n[03-04]

t001k09n[03-04]

t001k11n[03-04]

で計算で計算がとまっていて、全体の計算もストップしていました。

jobはキャンセルしました。一回、全体をリブートしていただけるでしょうか?

 

今回のジョブ、停電前と同じものです。入力しているパラメータが若干異なりますが、同じバイナリー、カーネルを使用しております。経験的に、システム起動直後は計算が不安定になる傾向があります。

 

お手数をおかけしますが、よろしくお願いいたします。

台坂博


返信引用
Shinichi Hirahara
(@hira)
Estimable Member Admin
結合: 8年前
投稿: 106
Topic starter  

台坂先生

お待たせしました。

全体を一回リセットしました。

宜しくお願いします


返信引用
台坂博
(@daisaka)
Estimable Member
結合: 9年前
投稿: 116
 

 

平原様、

どうもありがとうございます。

jobを流してみます。

 


返信引用
台坂博
(@daisaka)
Estimable Member
結合: 9年前
投稿: 116
 

平原様、

一橋大学の台坂です。また、デバイスが見えないノードがでました。

t001k09n[01-04]

t001k10n[01-04]

です。リセットをお願いできるでしょうか?

お手数をおかけしますが、よろしくお願いいたします。


返信引用
Shinichi Hirahara
(@hira)
Estimable Member Admin
結合: 8年前
投稿: 106
Topic starter  

台坂先生

09,10 リセットしました。

10n01は昨夜23時くらいにModuleFailが起きていたようです。

(この段階で10のモジュールはほとんど見えなくなっていたと思われます)

宜しくお願いします。


返信引用
台坂博
(@daisaka)
Estimable Member
結合: 9年前
投稿: 116
 

平原様、

早々の対応をどうもありがとうございます。

昨日の23時ですか、こちらのログに何か残っていないか、確認してみます。

 


返信引用