通知
すべてクリア

drng


石川正
(@tadashi-ishikawa)
Eminent Member
結合: 9年前
投稿: 41
Topic starter  

現在、以下の4つのジョブが、アイドル状態です。

             18091     mem32 tmp7d32_  tishika  R 1-12:22:45      1 t001k03n03

             18092     mem32 tmp7d32_  tishika  R 1-12:22:45      1 t001k03n04

             18114     mem32 tmp7d32_  tishika  R 1-03:44:13      1 t001k09n03

             18120     mem32 tmp7d32_  tishika  R 1-03:44:08      1 t001k09n04

 

ジョブをキャンセルしたいと思っています。

当該ノードは"drng"となっていますが、これはどういう意味でしょうか?

mem32        up   infinite      5   drng t001k03n[03-04],t001k06n04,t001k09n[03-04]

drain に行く途中?

ジョブが終了次第、drainにするのであれば、キャンセルします。

 mem32の他の18ノードは順調に動いています。mem32では全く同じ実行モジュールで物理パラメータだけ

流しています。(メモリとかMPI通信量とかは同じです。)

 

mem64の2本もアイドルです。drngです。以下の2行目、3行目が当該ジョブです。前後のジョブは無事終了しております。

-rw-rw-r-- 1 tishika tishika 3899 Mar 13 11:20 outsc2_s1.61_p10_h0.03_r57.txt

-rw-rw-r-- 1 tishika tishika 3586 Mar 13 10:32 outsc2_s1.61_p10_h0.03_r58.txt

-rw-rw-r-- 1 tishika tishika 3586 Mar 13 10:32 outsc2_s1.61_p10_h0.03_r59.txt

-rw-rw-r-- 1 tishika tishika 3899 Mar 13 11:19 outsc2_s1.61_p10_h0.03_r60.txt

 

宜しくお願いします。

石川 正


引用
石川正
(@tadashi-ishikawa)
Eminent Member
結合: 9年前
投稿: 41
Topic starter  

「自己レス」

mem64の2本(2行目、3行目)はジョブとして終了したようです。(終了のタイミングはなんだろう?)

-rw-rw-r-- 1 tishika tishika 3899 Mar 13 11:20 outsc2_s1.61_p10_h0.03_r57.txt

-rw-rw-r-- 1 tishika tishika 3902 Mar 13 12:29 outsc2_s1.61_p10_h0.03_r58.txt

-rw-rw-r-- 1 tishika tishika 3901 Mar 13 12:29 outsc2_s1.61_p10_h0.03_r59.txt

-rw-rw-r-- 1 tishika tishika 3899 Mar 13 11:19 outsc2_s1.61_p10_h0.03_r60.txt

使っていたノードはt001k06n[01-02]は、drainになりました。

ジョブの結果は、

Kernel time 18446744073.70955 sec

 main loop ended 

 kern6dI3J3: result(00)   0.0000000000000000e+00

 kern6dI3J3: result(01)   0.0000000000000000e+00

 wallclock time             7015.067939043045

でやりおなし。その前のジョブは

Kernel time 2878.797543285 sec

 main loop ended 

 kern6dI3J3: result(00)   6.8059355673775658e+00

 kern6dI3J3: result(01)   8.7176258046746028e+00

 wallclock time             2886.655827999115

 で正常のようです。drgになったら、キャンセルした方がいいですね。

石川 正


返信引用
石川正
(@tadashi-ishikawa)
Eminent Member
結合: 9年前
投稿: 41
Topic starter  

平原様

以下の6ブリックのジョブが宙ぶらりんのようでscancelしました。ノードはdrngからdrainになりました。

t001k02n[01-04],t001k03n[01-04],t001k04n[01-04],t001k05n[01-04],t001k06n[01-04],t001k08n[01-04]

再起動をお願いします。

石川 正


返信引用
石川正
(@tadashi-ishikawa)
Eminent Member
結合: 9年前
投稿: 41
Topic starter  

対応ありがとうございました。欠損ジョブを再投入します。取り急ぎ、石川 正


返信引用
石川正
(@tadashi-ishikawa)
Eminent Member
結合: 9年前
投稿: 41
Topic starter  

01,05,07,09,10のブリックの再起動をお願いします。石川 正


返信引用
石川正
(@tadashi-ishikawa)
Eminent Member
結合: 9年前
投稿: 41
Topic starter  

また04,08でdrngが発生しましたね。ジョブは一本8.6 hourです。

正常に終わるのもあります。

04のノードホストに入ると、8本のプロセスのうち、一部プロセスがCPUが消費しています。

これは、MPI待ちでしょう。これが発生したブリック全体が drng化するようです。

今は、1ノード8並列のジョブなので、同じブリックに影響を与えてしまうようですね。

うーむ、、200sec x 157 本に分割して手元で、gatherする方法か、1node 8本、chip毎に

流すか、、、、ですね。


返信引用
石川正
(@tadashi-ishikawa)
Eminent Member
結合: 9年前
投稿: 41
Topic starter  

しばらく順調でしたが、drain化が今日になってからブリックを超えて一気に進んだようです。

ブリック02,03,04,06,07,08,09,10の再立ち上げをお願いします。

t001k02n01はidleですが、投入してもジョブはエラーになります。

明日またお手数をおかけしますが、宜しくお願いします。一本8.6時間です。

石川 正


返信引用
石川正
(@tadashi-ishikawa)
Eminent Member
結合: 9年前
投稿: 41
Topic starter  

ありがとうございました。01のジョブが時刻を過ぎても終了しません。おそらくdrain化するのでキャンセルして

システム停止して構いません。本日は宜しくお願いします。石川 正


返信引用
石川正
(@tadashi-ishikawa)
Eminent Member
結合: 9年前
投稿: 41
Topic starter  

昨日はお疲れ様でした。

3/27 9:41にk05がdrain化しましたので、該当ジョブをキャンセルしました。

拡大しないことを祈ります。


返信引用