僕はインフラエンジニアではないし、そうだったこともないのだけど、いま「インフラエンジニアの教科書2」という本を読んでいる。
- 作者: 佐野裕
- 出版社/メーカー: シーアンドアール研究所
- 発売日: 2016/08/26
- メディア: Kindle版
- この商品を含むブログを見る
Twitter かなにかでこの本の存在を知り、とりあえず買ってみたものの、しばらくの間積読状態になってしまっていた。...のだけど、最近になってようやくちまちまと読んでいる。関係ないけど、kindleで読めるのはほんとに便利だ。
この本の7章「障害対策と障害対応」で、『以下のような項目についてはサーバ障害時に即座に(20秒程度で!)収集できるべき』、とされていた。
- メモリの搭載量と使用量
- パーティションごとのディスクの使用率と空き容量
- CPUの種類とコア数
- ディスクのRAID構成
- CPU使用率
- ディスクアクセス率
- TCPコネクションの数
- 現在サーバにログインしているユーザ
- サーバが起動してからのえ経過時間
- (それが Web サーバの場合、)Webサーバには何が動いているか?
- (DBと連携しているWebサーバの場合、)何のDBサーバソフトウェアと接続しているか?
- メモリやハードディスクが故障していると仮定したときに、その証拠の調べ方
- サーバにはUSBメモリが接続されているか否か?
- ネットワーク機器とサーバのネットワークインタフェースは何Gbpsで接続されているか?
これら全ての項目の収集を20秒でやりきれる自信は僕にはさらさら無かったし、なによりこの本の中ではコマンドしか紹介されていなかったので、そのひとつひとつについて自分のサンドボックス的サーバに対しておもむろに実行してみた。これはそのまとめになる。
「サンドボックス的サーバ」というのは、さくらのクラウドに立てているVMインスタンス。以下のようなかんじのもの。
$ cat /etc/system-release CentOS Linux release 7.2.1511 (Core) $ uname -a Linux sandbox 3.10.0-327.22.2.el7.x86_64 #1 SMP Thu Jun 23 17:05:11 UTC 2016 x86_64 x86_64 x86_64 GNU/Linux続きを読む