このところ、一定の頻度でjob実行が失敗し、以下のエラーが出ます: (nnnnはjobid)
srun: error: Unable to confirm allocation for job nnnn: Socket timed out on send/recv operation.
front-end から squeue や scancel を実行した場合にも同様のtimeoutエラーが出る場合があります。お調べいただけますでしょうか。
青山様
エクサ平原です。
お世話になります。
上記エラーはいつ頃から発生していますでしょうか?
4月20日20時ころに石川先生からのご要望でノード搭載メモリ容量ごとのPatritionを作成しておりますが、
このとき私の設定不備があり、4月20日20時以降エラーが出ていた可能性があります。申し訳ありません。
現在再設定させていただき、簡単ですが動作確認いたしました。
宜しくお願いいたします。
平原様
お世話になっております。ご対応いただきありがとうございます。
ログで確認できた範囲では、timed out のエラーが出ているのは 4/24 16時以降です。
関係するか分かりませんが、4/23夜から、プログラムのビルドに時間がかかる等の現象が出ていました。
また、現在、vi (vim) の起動に失敗します:
vim: error while loading shared libraries: /usr/lib64/libgpm.so.2: cannot read file data: Input/output error
以上、よろしくお願いいたします。
vimが起動失敗するのは、ファイルシステムに不整合が起きているのが原因のようでしたので、復旧を試みました。
今は使えるはずです。
不整合が起きていたのはシステムのパーティションのみで、/homeは無事でした。
どちらかというとsrunのエラーはこちらの可能性があります。
ひとまずこちらで様子見していただけないでしょうか?
山浦様
ご対応いただきありがとうございました。現在は正常に使えるようになっています。
よろしくお願いいたします。