通知
すべてクリア

please reset all nodes


台坂博
(@daisaka)
Estimable Member
結合: 9年前
投稿: 116
Topic starter  

一橋大学の台坂です。いつもお世話になっております。

昨日から計算を流しているのですが、多くのノードが不調です。

計算を走らせると、しばらくしてSCチップから応答が無くなってしまうようです。

お手数ですが、システムをリセットしてもらえるでしょうか?

よろしくお願いいたします。

P.S.

先日のコンパイルの件、解決策は見つけました。


引用
Shinichi Hirahara
(@hira)
Estimable Member Admin
結合: 8年前
投稿: 106
 

台坂先生 エクサ平原です。お世話になります。

お時間かかってしまい申し訳ありません。

t001k04がまだ不調で調整中ですが、それ以外は復旧させました。

(t001k07n04はモジュール不良のためDrainのままです)

 

宜しくお願いいたします。


返信引用
台坂博
(@daisaka)
Estimable Member
結合: 9年前
投稿: 116
Topic starter  

平原様、

一橋大学の台坂です。いつもお世話になっております。

対応をどうもありがとうございました。調整ノードの情報もどうもありがとうございます。


返信引用
Shinichi Hirahara
(@hira)
Estimable Member Admin
結合: 8年前
投稿: 106
 

平原です。

t001k04ですが、t001k04n03にモジュール不良がありますのでDrainにしました。

それ以外は復旧させました。

ご迷惑おかけします。

宜しくお願いいたします。


返信引用
台坂博
(@daisaka)
Estimable Member
結合: 9年前
投稿: 116
Topic starter  

平原様、

一橋大学の台坂です。いつもお世話になっております。

以下のノードを使うおうとしたところ、デバイスから応答がなくなっていました。

お手数ですが確認をお願いできるでしょうか?

t001k01[01-04]

t001k02[01-04]

t001k05[01-04]


返信引用
Shinichi Hirahara
(@hira)
Estimable Member Admin
結合: 8年前
投稿: 106
 

台坂先生

平原です。現在対処中です。(午前中チェックしたときは問題なかったのですが・・・・)

少々お待ちください。すみません。

 

 


返信引用
Shinichi Hirahara
(@hira)
Estimable Member Admin
結合: 8年前
投稿: 106
 

台坂先生

ノードをリセットして復旧させました。

こちらでテストしてパスしております。

よろしくお願いいたします。


返信引用
台坂博
(@daisaka)
Estimable Member
結合: 9年前
投稿: 116
Topic starter  

平原様、

対応をどうもありがとうございます。

ログをみると、計算途中でデバイスの応答がなくなってしまうようです。

追加でお願いですが、

t001k09n02

も確認をお願いできるでしょうか?1デバイスから応答がなくなってしまいました。

ジョブは停めますので、よろしくお願いいたします。

 


返信引用
Shinichi Hirahara
(@hira)
Estimable Member Admin
結合: 8年前
投稿: 106
 

台坂先生

簡易チェックでしか確認できていませんが、t001k09n02に絡むデバイスでエラーは出ていませんでした。

いつも我々で使っているテストプログラムで確認したいところですが

t001k09に絡むノード(n01~n04)個々に対処する術が無く、ブリック単位での対処になってしまいます。

現在JobID:10269がt001k09n03,04を使っているようですので、

これが終了後にt001k09全体でテストさせていただいてよろしいでしょうか?

宜しくお願いいたします。


返信引用
台坂博
(@daisaka)
Estimable Member
結合: 9年前
投稿: 116
Topic starter  

平原様、

お手数をおかけします。

t001k09n03,04の計算、少し時間がかかりますので、確認は来週にお願いできるでしょうか?

申し訳ありません。

t001k01n[01-02],t001k02n[01-02] は問題なく動作しております。


返信引用
Shinichi Hirahara
(@hira)
Estimable Member Admin
結合: 8年前
投稿: 106
 

台坂先生

承知致しました。来週確認いたします。

ご迷惑おかけします。

宜しくお願いします。


返信引用
台坂博
(@daisaka)
Estimable Member
結合: 9年前
投稿: 116
Topic starter  

平原様、

一橋大学の台坂です。お手数をおかけしております。

週末の計算で、以下のノードにも問題が発生しました。症状としては、チップから応答がなくなる、計算結果がおかしい(一部の答えがnanになる)です。こちらのノードも確認をお願いできるでしょうか?よろしくお願いいたします。

- t001k11[01-04]

-t001k01[01-04]

-t001k09n02

-t001k06n04


返信引用
Shinichi Hirahara
(@hira)
Estimable Member Admin
結合: 8年前
投稿: 106
 

台坂先生

エクサ平原です。

お世話になります。

 

今朝確認しました。

結果ですが、

t001k01,09,11 に関しては復旧させました。

t001k06n04と、今回御指摘にはありませんでしたが

t001k03n01 にモジュールのエラーが見つかりましたのでこの2つのノードはDrainにしております。

近々モジュール交換に伺おうと思いますが、交換時は各ノードの上位のブリックの電源を落す必要があります。

作業予定等が決まりましたらご連絡差し上げます。

ご迷惑おかけ致します。

宜しくお願いいたます。

 


返信引用
台坂博
(@daisaka)
Estimable Member
結合: 9年前
投稿: 116
Topic starter  

平原様、

一橋大学の台坂です。どうもありがとうございました。

問題のあるノードは極力使わないようにします。

 


返信引用
Shinichi Hirahara
(@hira)
Estimable Member Admin
結合: 8年前
投稿: 106
 

台坂先生

エクサ平原です。お世話になります。

今週金曜(26日)の13時より、不良モジュール交換作業を予定します。

対象ノードは

t001k03,04,06,07 n[01-04]です。

作業中はこれらのノードを落とします。

作業は2~3時間の予定です。

もし26日の停止で不都合がある場合はお知らせください。

宜しくお願いします。

 

 

 


返信引用