通知
すべてクリア

nodes with nan result


台坂博
(@daisaka)
Estimable Member
結合: 9年前
投稿: 116
Topic starter  

一橋大学の台坂です。いつもお世話になっております。

先週のメンテ以降に行った計算の中で、以下のノードで問題が発生しましたのでお知らせいたします。

症状としては、答えがnanになってしまう、チップからの応答がなくなる、です。

nanになってしまう症状ですが、すべての答えがnanになるのではなく、一部がnanになります。

パラメータを変えた計算でも同じところでnanになるので、どうも、特定のPEに問題があると推測されます。

よろしくお願いいたします。

 

- t001k04[01-04]

-t001k01n02

-t001k09n02


引用
Shinichi Hirahara
(@hira)
Estimable Member Admin
結合: 8年前
投稿: 106
 

台坂先生、

エクサ平原です。お世話になります。

ご報告ありがとうございます。

 

各ノードのJobの終了を見て、t001k01はテストしたところ

t001k01n02にぶら下がるモジュール1つでエラーが見つかりました。

t001k01n02はdrainにしております。

 

t001k04,09に関しても、現在のjobが終了後にDrainになるよう設定しましたので

(Jobが流れているノードはdrainingというステータスになっています)

タイミングを見てテストさせていただきます。

また、現在Jobは流れていませんが、t001k07n04はノードがダウンしておりました。

このため、t001k07に関しても同様にdrainingにして、jobから解放後に

テストいたします。

 

明日午後にに計画停電、来週月曜に復電対応のために現地訪問が予定されていますので

その時に不良モジュールは交換いたします。

宜しくお願いいたします。


返信引用
台坂博
(@daisaka)
Estimable Member
結合: 9年前
投稿: 116
Topic starter  

平原様、

一橋大学の台坂です。どうもありがとうございます。

対応をどうもありがとうございます。いま、私が流しているジョブは遅いものでも10時間で終わります。

終了後は新なジョブは流さないようにしますので、テストのほど、よろしくお願いいたします。

また、停電時の対応もよろしくお願いいたします。


返信引用
Shinichi Hirahara
(@hira)
Estimable Member Admin
結合: 8年前
投稿: 106
 

台坂先生。

承知しました。

宜しくお願いいたします。


返信引用