通知
すべてクリア

[解決済] srun timeout


T. Aoyama
(@aoym)
New Member
結合: 9年前
投稿: 4
Topic starter  

このところ、一定の頻度でjob実行が失敗し、以下のエラーが出ます: (nnnnはjobid)

srun: error: Unable to confirm allocation for job nnnn: Socket timed out on send/recv operation.

front-end から squeue や scancel を実行した場合にも同様のtimeoutエラーが出る場合があります。お調べいただけますでしょうか。


引用
Shinichi Hirahara
(@hira)
Estimable Member Admin
結合: 8年前
投稿: 106
 

青山様

エクサ平原です。

お世話になります。

 

上記エラーはいつ頃から発生していますでしょうか?

4月20日20時ころに石川先生からのご要望でノード搭載メモリ容量ごとのPatritionを作成しておりますが、

このとき私の設定不備があり、4月20日20時以降エラーが出ていた可能性があります。申し訳ありません。

現在再設定させていただき、簡単ですが動作確認いたしました。

宜しくお願いいたします。


返信引用
T. Aoyama
(@aoym)
New Member
結合: 9年前
投稿: 4
Topic starter  

平原様

お世話になっております。ご対応いただきありがとうございます。

ログで確認できた範囲では、timed out のエラーが出ているのは 4/24 16時以降です。

関係するか分かりませんが、4/23夜から、プログラムのビルドに時間がかかる等の現象が出ていました。
また、現在、vi (vim) の起動に失敗します:
vim: error while loading shared libraries: /usr/lib64/libgpm.so.2: cannot read file data: Input/output error

以上、よろしくお願いいたします。


返信引用
yamaura
(@yamaura)
Eminent Member Admin
結合: 8年前
投稿: 20
 

vimが起動失敗するのは、ファイルシステムに不整合が起きているのが原因のようでしたので、復旧を試みました。

今は使えるはずです。

不整合が起きていたのはシステムのパーティションのみで、/homeは無事でした。

どちらかというとsrunのエラーはこちらの可能性があります。

ひとまずこちらで様子見していただけないでしょうか?


返信引用
T. Aoyama
(@aoym)
New Member
結合: 9年前
投稿: 4
Topic starter  

山浦様

ご対応いただきありがとうございました。現在は正常に使えるようになっています。

よろしくお願いいたします。


返信引用