負荷テスト?

あらじかじめ計画していた訳ではないのですが、Webサーバーがどの程度の負荷に耐えるのか、テストが出来てしまいました。いや、テストじゃなくて、トラブルかな...
1.発生…嬉しくない知らせが来た!
先週末、うちのお客様のホームページを、新しいサーバーに移転しました。国内のサーバーから海外のサーバーに移転したため、画像の表示がやや遅くなったのが気になっていますが、安定して稼働している様です。
そろそろ「移転作業完了」の連絡をしようと思っていた所、5月21日の12時過ぎに、前日に設定したばかりの稼働監視ツールから、Webサーバーが停止していることを知らせるメールが届きました。


2.調査…いったい何が起きているんだ!?
確認してみると、移転したばかりのホームページにアクセスできません。ただし、サーバーが停止しているというよりは、遅いだけの様に見えます。
移転直後で設定ミス等の原因も考えられますので、サーバーの管理ツールで、更に詳しく確認します。ウェブサーバーは起動している様ですが、昼前からサーバー全体の負荷が高くなっています。各種ログを見ると、気になる情報がいろいろとあります。しかし、普段見ていないログまで見てしまったので、原因が特定しにくくなってしまいました。
気を取り直して、ウェブサーバーのアクセスログをダウンロードして確認しようとしたところ...、ログファイルがやたらと大きいです。
もしかしてDoS攻撃かと思って、アクセス元のIPアドレスを調べたのですが、偏りはありませんし、アクセスしているページも一定していません。ただ単に、アクセスが多いだけの様に見えます。何が起こったのでしょう?
そう言えば、サーバー停止のメールと同じころ、このホームページのオーナーに関する報道記事を、そのままコピーした様な問い合わせメールが来ていました。どうやら、原因は、それらしいです。
その後、新聞社のサイトやTVで確認したところ、このホームページのオーナーに関連してよろしくない事件の報道がありました。その結果、ホームページへのアクセス数が急増し、通常、月間ページビューで2万前後なのですが、この日だけで4万を超えるアクセスがありました。
3.対応…騒ぎが収まるのを待ってみる
とりあえず、アクセス急増によりホームページの表示が遅くなっている旨と、状況によっては一時的にホームページを閉鎖する旨を、お客様のホームページ担当者に連絡し、しばらく様子を見ます。
また、少しでも負荷を減らすため、ホームページの画像の一部を、サイズの小さい透明GIF画像に置き換えておきます。
どうやら、19時ごろをピークに、一旦アクセス数は減った様です。
4.対策…アクセスログ記録方法の改善が必要?
今回の様な、報道を原因とするアクセス急増は、滅多に無いことだとは思いますが、ページビューが4万/日程度でアクセス出来なくなってしまう様では、問題がありそうです。今後、同じサーバーに、複数ドメイン構成で他のサイトも移転してくる予定なので、対策が必要です。
原因を特定できる確実な情報が無いのですが、アクセスログを記録するために設定しているCGIに問題があるかもしれません。そもそも、移転した新しいサーバーでは、Webサーバーが出力するアクセスログが使えるので、CGIによるアクセスログは不要なのですが、ログの取得方法による違いを確かめるために、両方のログを記録しています。
このCGIが原因だとすると、以下の対策が考えられます。
 1)CGIによるアクセスログの取得を止め、Webサーバーのログだけを用いる。
 2)CGIの処理を改善し、負荷を軽減する。
5.テスト結果…これじゃダメ!
今回の件、トラブルとしての結論はまだ出ませんが、負荷テストと考えると、ダメですね。前述の通り、対策します。