読者です 読者をやめる 読者になる 読者になる

えいのうにっき

あたまのなかのデトックスを、不定期的に。主に Web 系技術ネタ。

「インフラエンジニアの教科書2」を読んだ

技術

なんか前回のエントリと前後しちゃった感もあるんだけど、今月に入ってから「インフラエンジニアの教科書2」という本を読んでいて、今日それを読み終えた。

インフラエンジニアの教科書2 スキルアップに効く技術と知識

インフラエンジニアの教科書2 スキルアップに効く技術と知識

続きを読む

「障害発生時に即座に収集したいサーバの状態・14項目」を実際に収集してみた

インフラ 技術

僕はインフラエンジニアではないし、そうだったこともないのだけど、いま「インフラエンジニアの教科書2」という本を読んでいる。

インフラエンジニアの教科書2 スキルアップに効く技術と知識

インフラエンジニアの教科書2 スキルアップに効く技術と知識

Twitter かなにかでこの本の存在を知り、とりあえず買ってみたものの、しばらくの間積読状態になってしまっていた。...のだけど、最近になってようやくちまちまと読んでいる。関係ないけど、kindleで読めるのはほんとに便利だ。

f:id:a-know:20161120213000p:plain

この本の7章「障害対策と障害対応」で、『以下のような項目についてはサーバ障害時に即座に(20秒程度で!)収集できるべき』、とされていた。

  1. メモリの搭載量と使用量
  2. パーティションごとのディスクの使用率と空き容量
  3. CPUの種類とコア数
  4. ディスクのRAID構成
  5. CPU使用率
  6. ディスクアクセス率
  7. TCPコネクションの数
  8. 現在サーバにログインしているユーザ
  9. サーバが起動してからのえ経過時間
  10. (それが Web サーバの場合、)Webサーバには何が動いているか?
  11. (DBと連携しているWebサーバの場合、)何のDBサーバソフトウェアと接続しているか?
  12. メモリやハードディスクが故障していると仮定したときに、その証拠の調べ方
  13. サーバにはUSBメモリが接続されているか否か?
  14. ネットワーク機器とサーバのネットワークインタフェースは何Gbpsで接続されているか?

これら全ての項目の収集を20秒でやりきれる自信は僕にはさらさら無かったし、なによりこの本の中ではコマンドしか紹介されていなかったので、そのひとつひとつについて自分のサンドボックス的サーバに対しておもむろに実行してみた。これはそのまとめになる。

サンドボックス的サーバ」というのは、さくらのクラウドに立てているVMインスタンス。以下のようなかんじのもの。

$ cat /etc/system-release
CentOS Linux release 7.2.1511 (Core) 
$ uname -a
Linux sandbox 3.10.0-327.22.2.el7.x86_64 #1 SMP Thu Jun 23 17:05:11 UTC 2016 x86_64 x86_64 x86_64 GNU/Linux
続きを読む