通知
すべてクリア

[解決済] grand


石川正
(@tadashi-ishikawa)
Eminent Member
結合: 9年前
投稿: 41
Topic starter  

slurm のgrand が現在(4/1), downですが、upして下さい。

一丁目一番地のt001k01n01を

#SBATCH --exclude=t001k01n01

したら正常に終了しました。そう出ないとジョブが終わらないという状況がありました。

不具合のあるものは、

down

に登録して下さい。

t001k09n[01-04],t001k10n[01-04]

はOKですが。

t001k11n[01-04],t001k12n[01-04]

のどれかに不具合がありそうです。

取り急ぎ


引用
Shinichi Hirahara
(@hira)
Estimable Member Admin
結合: 8年前
投稿: 106
 

石川先生

エクサ平原です。

t001k05,t001k06はallocされていなかったためブリック再起動でidleに復帰させました。

またgrandをupにしました。

現在不具合が明確なものはt001k07n04で、downにしています。

宜しくお願いいたします。

 

 


返信引用
石川正
(@tadashi-ishikawa)
Eminent Member
結合: 9年前
投稿: 41
Topic starter  

平原様

grandアップありがとうございます。

single node ジョブで調べています。

1) t001k12n01, t001k12n03 , t001k02n03, t001k02n04 はclCreateProgramWithBinary failed, -45が発生。

2) t001k07n01 は、kernel timeも出ずに宙ぶらりん?

3)t001k08n02 は答えが出てきますが、10倍以上時間がかかる(I/O???)

現在slurmで流していますが、上記のものはそちらでキャンセルしても構いません。

 

 


返信引用
Shinichi Hirahara
(@hira)
Estimable Member Admin
結合: 8年前
投稿: 106
 

エクサ平原です。

t001k12n01, t001k12n03 , t001k02n03, t001k02n04, t001k07n01 ,001k08n02 

jobをキャンセルさせていただきました。


返信引用
石川正
(@tadashi-ishikawa)
Eminent Member
結合: 9年前
投稿: 41
Topic starter  

平原様

お世話をおかけします。

当方のプログラムでは

 t001k02n[01,03-04],t001k07n[01-02],t001k08n[01-04],t001k11n[01-04],t001k12n[01,03]

Lattice QCDでは

t001k07n02,t001k08n[01-04]

のみ「正常」のようです。

pzcl.logは

<ERROR> [pzdri] DMARead failed at HOST:0x4b50940 ADDR:0x0000000000008000, SIZE:43136, REMAIN:43136
<ERROR>  2 : MemCopyFrom - DMA failed 10
<ERROR> pzclCreateProgramWithBinary - Invalid program executable.
あるいは、

<ERROR>  2 : Unknown portID for the PTILE, 0xFFFFFFFF
<ERROR> pzclCreateContext - can not create device object.

です。一回全部リブートするのはどうでしょうか?

ご検討願います。


返信引用
Shinichi Hirahara
(@hira)
Estimable Member Admin
結合: 8年前
投稿: 106
 

Exa平原です。

キューに何もない事を確認しましたので、今朝全数再起動してみました。

よろしくお願いします


返信引用
石川正
(@tadashi-ishikawa)
Eminent Member
結合: 9年前
投稿: 41
Topic starter  

ありがとうございました。

grand        up   infinite      1 drain* t001k07n04

grand        up   infinite      1  drain t001k06n04

の2node以外の

 

grand        up   infinite     46   idle t001k01n[01-04],t001k02n[01-04],t001k03n[01-04],t001k04n[01-04],t001k05n[01-04],t001k06n[01-03],t001k07n[01-03],t001k08n[01-04],t001k09n[01-04],t001k10n[01-04],t001k11n[01-04],t001k12n[01-04]

のうち

t001k01n02
がエラーになります

こちらのノードをfail?に回してください。

他45ノードは正常のようです。

よろしくお願いします。


返信引用
石川正
(@tadashi-ishikawa)
Eminent Member
結合: 9年前
投稿: 41
Topic starter  

ジョブクラスについてr

Suiren2 のメモリが64GBが各ブリックで、下01,02番、32GBが下03,04番のnodeようです。

64GBだけのnodeのjob class(mem64), 32GBだけのnode のjobclass,(mem32)とか

作っていただけないでしょうか?

石川 正


返信引用
Shinichi Hirahara
(@hira)
Estimable Member Admin
結合: 8年前
投稿: 106
 

石川先生

エクサ平原です。

メモリが64gbのNodeをまとめて mem64

メモリが32gbのNodeをまとめて mem32

のPartitionを作りました。

ただ、64GB ノードのうち、t001k07n4、t001k11n03はFail対象として殺しているので使えません

宜しくお願いします。


返信引用