通知
すべてクリア

[解決済] 20180315(slum-666)


石川正
(@tadashi-ishikawa)
Eminent Member
結合: 9年前
投稿: 41
Topic starter  

青睡蓮ですが、どうも調子がおかしいようです。
prad32, grand の32 nodeで動作しません。grandの方ですが、

[t1n011:18893] [[14759,0],0]->[[14759,0],4] mca_oob_tcp_msg_send_bytes: write failed: Broken pipe (32) [sd = 14]
[t1n011:18893] [[14759,0],0]-[[14759,0],4] mca_oob_tcp_peer_send_handler: unable to send header
[t1n011:18893] [[14759,0],0]->[[14759,0],2] mca_oob_tcp_msg_send_bytes: write failed: Broken pipe (32) [sd = 27]
[t1n011:18893] [[14759,0],0]-[[14759,0],2] mca_oob_tcp_peer_send_handler: unable to send header
slurmstepd: error: JOB 669 ON t1n011 CANCELLED AT 2018-03-15T20:04:48
mpirun: Forwarding signal 18 to job

となりました。エラーは、scancel した際のもののようです。


引用
yamaura
(@yamaura)
Eminent Member Admin
結合: 8年前
投稿: 20
 

石川先生

エラーログの原因とは、違いそうなのですが、一つおかしなホストがいたので修正しました。
OpenMPIにてOMBは64ノード256プロセスにて正常に動作するところまでは確認しております。
この状態にて再度確認していただけないでしょうか?


返信引用