2016-11-20

「障害発生時に即座に収集したいサーバの状態・14項目」を実際に収集してみた

僕はインフラエンジニアではないし、そうだったこともないのだけど、いま「インフラエンジニアの教科書２」という本を読んでいる。

インフラエンジニアの教科書2 スキルアップに効く技術と知識

作者: 佐野裕
出版社/メーカー: シーアンドアール研究所
発売日: 2016/08/26
メディア: Kindle版
この商品を含むブログを見る

Twitter かなにかでこの本の存在を知り、とりあえず買ってみたものの、しばらくの間積読状態になってしまっていた。...のだけど、最近になってようやくちまちまと読んでいる。関係ないけど、kindleで読めるのはほんとに便利だ。

f:id:a-know:20161120213000p:plain

この本の7章「障害対策と障害対応」で、『以下のような項目についてはサーバ障害時に即座に（20秒程度で！）収集できるべき』、とされていた。

メモリの搭載量と使用量
パーティションごとのディスクの使用率と空き容量
CPUの種類とコア数
ディスクのRAID構成
CPU使用率
ディスクアクセス率
TCPコネクションの数
現在サーバにログインしているユーザ
サーバが起動してからのえ経過時間
（それが Web サーバの場合、）Webサーバには何が動いているか？
（DBと連携しているWebサーバの場合、）何のDBサーバソフトウェアと接続しているか？
メモリやハードディスクが故障していると仮定したときに、その証拠の調べ方
サーバにはUSBメモリが接続されているか否か？
ネットワーク機器とサーバのネットワークインタフェースは何Gbpsで接続されているか？

これら全ての項目の収集を20秒でやりきれる自信は僕にはさらさら無かったし、なによりこの本の中ではコマンドしか紹介されていなかったので、そのひとつひとつについて自分のサンドボックス的サーバに対しておもむろに実行してみた。これはそのまとめになる。

「サンドボックス的サーバ」というのは、さくらのクラウドに立てているVM インスタンス。以下のようなかんじのもの。

$ cat /etc/system-release
CentOS Linux release 7.2.1511 (Core) 
$ uname -a
Linux sandbox 3.10.0-327.22.2.el7.x86_64 #1 SMP Thu Jun 23 17:05:11 UTC 2016 x86_64 x86_64 x86_64 GNU/Linux

2016-11-11

エンジニア立ち居振舞い：論理的に考える

雑記 tech メモワール（ポエム）

ひとでくんさんが作ってくれたお題「エンジニア立ち居振舞い」。ぼくはセールスエンジニア...、、あっ、エンジニアじゃんってことで考えてみた。

常に物事を論理的に考え、捉えるようにする

僕のいまの仕事のうちのひとつに、ユーザーさんからの技術的な問い合わせに対する受け答えをする「テクニカルサポート」というものがあって。

hatenacorp.jp

ご意見やご要望、動作不良など、日々さまざまなお問い合わせをいただくのだけど、特に「なぜかうまく動かない」といったお問い合わせは、僕の目から見ても「なぜうまく動かないのかわからない」ということも多くて。

特に、起きてる現象に対しての「ひと目見ただけでの時点での感想」は、ユーザーの方が抱くものと殆ど同じだったりする。

ただそこからがやはり大事だと思っていて、

目の前で起こっている事象が起きる原因としては、どういったものが考えられるか。
- 原因と思われるものがいくつか考えられる場合、そのひとつひとつについて「それが真の原因かどうか」を確かめるにはどうすればいいか？
そんなことはないはず、といった考えを裏付けるような証拠（ログとか）などを確認することはできるか。
その原因となる可能性を少しでも狭めるためにできることには、どういったことがあるか。
- 再現検証をしてみて再現するかどうか？
  - 再現しない場合は、ユーザーさんと自分の環境の差異となる要素はなにか？を考えたりとか
ユーザーさんが見ている・知り得ている情報とこちらの情報の差を予め整理し、理解する。
よくわからん場合、
- 「どういう場合だとこういう事象が起こると思われるか」という仮説を立ててみる
- その周辺の事柄で、そもそも自分の理解が不足していると思われる場合はまずそこの理解を進めて足場を固めてみる