現在、以下の4つのジョブが、アイドル状態です。
18091 mem32 tmp7d32_ tishika R 1-12:22:45 1 t001k03n03
18092 mem32 tmp7d32_ tishika R 1-12:22:45 1 t001k03n04
18114 mem32 tmp7d32_ tishika R 1-03:44:13 1 t001k09n03
18120 mem32 tmp7d32_ tishika R 1-03:44:08 1 t001k09n04
ジョブをキャンセルしたいと思っています。
当該ノードは"drng"となっていますが、これはどういう意味でしょうか?
mem32 up infinite 5 drng t001k03n[03-04],t001k06n04,t001k09n[03-04]
drain に行く途中?
ジョブが終了次第、drainにするのであれば、キャンセルします。
mem32の他の18ノードは順調に動いています。mem32では全く同じ実行モジュールで物理パラメータだけ
流しています。(メモリとかMPI通信量とかは同じです。)
mem64の2本もアイドルです。drngです。以下の2行目、3行目が当該ジョブです。前後のジョブは無事終了しております。
-rw-rw-r-- 1 tishika tishika 3899 Mar 13 11:20 outsc2_s1.61_p10_h0.03_r57.txt
-rw-rw-r-- 1 tishika tishika 3586 Mar 13 10:32 outsc2_s1.61_p10_h0.03_r58.txt
-rw-rw-r-- 1 tishika tishika 3586 Mar 13 10:32 outsc2_s1.61_p10_h0.03_r59.txt
-rw-rw-r-- 1 tishika tishika 3899 Mar 13 11:19 outsc2_s1.61_p10_h0.03_r60.txt
宜しくお願いします。
石川 正
「自己レス」
mem64の2本(2行目、3行目)はジョブとして終了したようです。(終了のタイミングはなんだろう?)
-rw-rw-r-- 1 tishika tishika 3899 Mar 13 11:20 outsc2_s1.61_p10_h0.03_r57.txt
-rw-rw-r-- 1 tishika tishika 3902 Mar 13 12:29 outsc2_s1.61_p10_h0.03_r58.txt
-rw-rw-r-- 1 tishika tishika 3901 Mar 13 12:29 outsc2_s1.61_p10_h0.03_r59.txt
-rw-rw-r-- 1 tishika tishika 3899 Mar 13 11:19 outsc2_s1.61_p10_h0.03_r60.txt
使っていたノードはt001k06n[01-02]は、drainになりました。
ジョブの結果は、
Kernel time 18446744073.70955 sec
main loop ended
kern6dI3J3: result(00) 0.0000000000000000e+00
kern6dI3J3: result(01) 0.0000000000000000e+00
wallclock time 7015.067939043045
でやりおなし。その前のジョブは
Kernel time 2878.797543285 sec
main loop ended
kern6dI3J3: result(00) 6.8059355673775658e+00
kern6dI3J3: result(01) 8.7176258046746028e+00
wallclock time 2886.655827999115
で正常のようです。drgになったら、キャンセルした方がいいですね。
石川 正
平原様
以下の6ブリックのジョブが宙ぶらりんのようでscancelしました。ノードはdrngからdrainになりました。
t001k02n[01-04],t001k03n[01-04],t001k04n[01-04],t001k05n[01-04],t001k06n[01-04],t001k08n[01-04]
再起動をお願いします。
石川 正
対応ありがとうございました。欠損ジョブを再投入します。取り急ぎ、石川 正
01,05,07,09,10のブリックの再起動をお願いします。石川 正
また04,08でdrngが発生しましたね。ジョブは一本8.6 hourです。
正常に終わるのもあります。
04のノードホストに入ると、8本のプロセスのうち、一部プロセスがCPUが消費しています。
これは、MPI待ちでしょう。これが発生したブリック全体が drng化するようです。
今は、1ノード8並列のジョブなので、同じブリックに影響を与えてしまうようですね。
うーむ、、200sec x 157 本に分割して手元で、gatherする方法か、1node 8本、chip毎に
流すか、、、、ですね。
しばらく順調でしたが、drain化が今日になってからブリックを超えて一気に進んだようです。
ブリック02,03,04,06,07,08,09,10の再立ち上げをお願いします。
t001k02n01はidleですが、投入してもジョブはエラーになります。
明日またお手数をおかけしますが、宜しくお願いします。一本8.6時間です。
石川 正
ありがとうございました。01のジョブが時刻を過ぎても終了しません。おそらくdrain化するのでキャンセルして
システム停止して構いません。本日は宜しくお願いします。石川 正
昨日はお疲れ様でした。
3/27 9:41にk05がdrain化しましたので、該当ジョブをキャンセルしました。
拡大しないことを祈ります。