一橋大学の台坂です。いつもお世話になっております。
es1fe の振舞がおかしいです。sinfo, squeueを実行すると、以下のエラーが表示されます。
[daisaka@suiren2 20190503]$ sinfo
sinfo: error: Unable to resolve "jm00": Unknown host
sinfo: error: Unable to establish control machine address
slurm_load_partitions: No error
現在、jobも止まっているようです。
関係あるかわかりませんが、CPU stuck などのメッセージがいろいろとでています。
Message from syslogd@suiren2 at May 12 16:28:14 ...
kernel:BUG: soft lockup - CPU#0 stuck for 22s! [ypserv:1459]
Message from syslogd@suiren2 at May 12 17:55:39 ...
kernel:BUG: soft lockup - CPU#7 stuck for 22s! [ypserv:1459]
Message from syslogd@suiren2 at May 12 17:55:39 ...
kernel:Uhhuh. NMI received for unknown reason 20 on CPU 19.
Message from syslogd@suiren2 at May 12 17:55:39 ...
kernel:Do you have a strange power saving mode enabled?
Message from syslogd@suiren2 at May 12 17:55:39 ...
kernel:Dazed and confused, but trying to continue
お手数をおかけしますが、確認をお願いできるでしょうか?
台坂先生
エクサ平原です。
お世話になります。
返信遅くなり申し訳ありません。
リモートで対処しておりますが、どうもリモートでは復旧できそうないなく
明日現地訪問で修理対応を予定させていただきます。
ご迷惑おかけしますが
宜しくお願いいたします。
台坂先生
ちなみに現在は先日と同じように復旧しているように見えるのですが
また再発の可能性が高いので明日訪問する予定です。
宜しくお願いします。
平原様、
一橋大学の台坂です。対応をどうもありがとうございます。
jobも走っているようです。ただ、ls コマンド実行した際のレスポンスが悪いですね。何か、ハード的な問題があるように思います。計算は流してありますが、修理の時に終わっていなければkillして下さい。
お手数をおかけしますが、修理のほど、よろしくお願いいたします。
台坂先生
いまだ原因特定には至っておりませんが、
VMXのコア割り当てがカツカツでしたので、緩和するように
設定変えて再起動しました。
ひとまず、この状態で様子見していただけないでしょうか?
いままではジョブが流れている状態で発生していたようですが、今はまだ起きていないようです。
よろしくお願いいたします。
山浦
山浦様、
一橋大学の台坂です。いつもお世話になっております。
対応をどうもありがとうございました。出力を確認したところ、計算は進んでいます。
ls コマンドを実行したときの出力が、まだ、遅いようですが、大丈夫そうです。
何かありましたらお知らせ致します。