ここ最近ずっと課題になっていたのがサーバーが過負荷になったときどうやって検知するのかということ、プロセスダウンでもすればわかりやすいがCPU使用率が危険な状態というのはどうしようかといろいろ探してみた。vmstatやtopを使う方法が一般的ですが、topコマンドがRHLとBSDで使い勝手が違いがあったので単純なvmstatを選びました。
どこかに載っていたコマンドですが
/usr/bin/vmstat|/bin/grep -E “^ ?[0-9]”|/usr/bin/awk ‘{print$18}’
このようにgrepでヘッダ部分を省きawkを利用してcpuの部分(BSDだと18番目)を抜き出す。
但し、ウチのBSDだとvmstatの1発目が正確な値を表示してくれないので2回分出力して2行目を取得。
そうするとコマンドはこのようになる。
/usr/bin/vmstat 1 2 | /usr/bin/tail -1 | /usr/bin/awk ‘{print$18}’
grepよりかtail -1の方が簡単だな。
これをアラート設定込みでシェルスクリプトに組み込んだのが下の例です。
#!/bin/sh
TO=webmaster@example.com
CC=user1@example.com
idle=`/usr/bin/vmstat 1 2 | /usr/bin/tail -1 | /usr/bin/awk ‘{print$18}’`
cpu=`expr 100 – $idle`
if [ 90 -lt $cpu ]
then
echo “CPU = $cpu” | mail -s “CPU Alert” -c $CC $TO
fi
exit 0