一橋大学の台坂です。いつもお世話になっております。
先週のメンテ以降に行った計算の中で、以下のノードで問題が発生しましたのでお知らせいたします。
症状としては、答えがnanになってしまう、チップからの応答がなくなる、です。
nanになってしまう症状ですが、すべての答えがnanになるのではなく、一部がnanになります。
パラメータを変えた計算でも同じところでnanになるので、どうも、特定のPEに問題があると推測されます。
よろしくお願いいたします。
- t001k04[01-04]
-t001k01n02
-t001k09n02
台坂先生、
エクサ平原です。お世話になります。
ご報告ありがとうございます。
各ノードのJobの終了を見て、t001k01はテストしたところ
t001k01n02にぶら下がるモジュール1つでエラーが見つかりました。
t001k01n02はdrainにしております。
t001k04,09に関しても、現在のjobが終了後にDrainになるよう設定しましたので
(Jobが流れているノードはdrainingというステータスになっています)
タイミングを見てテストさせていただきます。
また、現在Jobは流れていませんが、t001k07n04はノードがダウンしておりました。
このため、t001k07に関しても同様にdrainingにして、jobから解放後に
テストいたします。
明日午後にに計画停電、来週月曜に復電対応のために現地訪問が予定されていますので
その時に不良モジュールは交換いたします。
宜しくお願いいたします。
平原様、
一橋大学の台坂です。どうもありがとうございます。
対応をどうもありがとうございます。いま、私が流しているジョブは遅いものでも10時間で終わります。
終了後は新なジョブは流さないようにしますので、テストのほど、よろしくお願いいたします。
また、停電時の対応もよろしくお願いいたします。
台坂先生。
承知しました。
宜しくお願いいたします。