青睡蓮ですが、どうも調子がおかしいようです。
prad32, grand の32 nodeで動作しません。grandの方ですが、
[t1n011:18893] [[14759,0],0]->[[14759,0],4] mca_oob_tcp_msg_send_bytes: write failed: Broken pipe (32) [sd = 14]
[t1n011:18893] [[14759,0],0]-[[14759,0],4] mca_oob_tcp_peer_send_handler: unable to send header
[t1n011:18893] [[14759,0],0]->[[14759,0],2] mca_oob_tcp_msg_send_bytes: write failed: Broken pipe (32) [sd = 27]
[t1n011:18893] [[14759,0],0]-[[14759,0],2] mca_oob_tcp_peer_send_handler: unable to send header
slurmstepd: error: JOB 669 ON t1n011 CANCELLED AT 2018-03-15T20:04:48
mpirun: Forwarding signal 18 to job
となりました。エラーは、scancel した際のもののようです。
石川先生
エラーログの原因とは、違いそうなのですが、一つおかしなホストがいたので修正しました。
OpenMPIにてOMBは64ノード256プロセスにて正常に動作するところまでは確認しております。
この状態にて再度確認していただけないでしょうか?