slurm のgrand が現在(4/1), downですが、upして下さい。
一丁目一番地のt001k01n01を
#SBATCH --exclude=t001k01n01
したら正常に終了しました。そう出ないとジョブが終わらないという状況がありました。
不具合のあるものは、
down
に登録して下さい。
t001k09n[01-04],t001k10n[01-04]
はOKですが。
t001k11n[01-04],t001k12n[01-04]
のどれかに不具合がありそうです。
取り急ぎ
石川先生
エクサ平原です。
t001k05,t001k06はallocされていなかったためブリック再起動でidleに復帰させました。
またgrandをupにしました。
現在不具合が明確なものはt001k07n04で、downにしています。
宜しくお願いいたします。
平原様
grandアップありがとうございます。
single node ジョブで調べています。
1) t001k12n01, t001k12n03 , t001k02n03, t001k02n04 はclCreateProgramWithBinary failed, -45が発生。
2) t001k07n01 は、kernel timeも出ずに宙ぶらりん?
3)t001k08n02 は答えが出てきますが、10倍以上時間がかかる(I/O???)
現在slurmで流していますが、上記のものはそちらでキャンセルしても構いません。
エクサ平原です。
t001k12n01, t001k12n03 , t001k02n03, t001k02n04, t001k07n01 ,001k08n02
jobをキャンセルさせていただきました。
平原様
お世話をおかけします。
当方のプログラムでは
t001k02n[01,03-04],t001k07n[01-02],t001k08n[01-04],t001k11n[01-04],t001k12n[01,03]
Lattice QCDでは
t001k07n02,t001k08n[01-04]
のみ「正常」のようです。
pzcl.logは
<ERROR> [pzdri] DMARead failed at HOST:0x4b50940 ADDR:0x0000000000008000, SIZE:43136, REMAIN:43136
<ERROR> 2 : MemCopyFrom - DMA failed 10
<ERROR> pzclCreateProgramWithBinary - Invalid program executable.
あるいは、
<ERROR> 2 : Unknown portID for the PTILE, 0xFFFFFFFF
<ERROR> pzclCreateContext - can not create device object.
です。一回全部リブートするのはどうでしょうか?
ご検討願います。
Exa平原です。
キューに何もない事を確認しましたので、今朝全数再起動してみました。
よろしくお願いします
ありがとうございました。
grand up infinite 1 drain* t001k07n04
grand up infinite 1 drain t001k06n04
の2node以外の
grand up infinite 46 idle t001k01n[01-04],t001k02n[01-04],t001k03n[01-04],t001k04n[01-04],t001k05n[01-04],t001k06n[01-03],t001k07n[01-03],t001k08n[01-04],t001k09n[01-04],t001k10n[01-04],t001k11n[01-04],t001k12n[01-04]
のうち
t001k01n02
がエラーになります
こちらのノードをfail?に回してください。
他45ノードは正常のようです。
よろしくお願いします。
ジョブクラスについてr
Suiren2 のメモリが64GBが各ブリックで、下01,02番、32GBが下03,04番のnodeようです。
64GBだけのnodeのjob class(mem64), 32GBだけのnode のjobclass,(mem32)とか
作っていただけないでしょうか?
石川 正
石川先生
エクサ平原です。
メモリが64gbのNodeをまとめて mem64
メモリが32gbのNodeをまとめて mem32
のPartitionを作りました。
ただ、64GB ノードのうち、t001k07n4、t001k11n03はFail対象として殺しているので使えません
宜しくお願いします。