node_exporter入れると取れるちょっとマニアックなメトリクス

モニタリングツール系ってagent入れればロードアベレージ、ディスク使用量、メモリ使用量、Disk IO、ネットワークトラフィックなどはどれも取れると思います。

ただしそれらのメトリクスだけではトラブルシューティングに不十分な場合があります。
なおここではアプリケーション固有のメトリクスの話は除外します。

なので普通は下記のようなステップになると思います。
・よくわからんエラーがでる
・どうも調べていくと〜というメトリクスをモニタリングした方がいいらしいとわかる
・モニタリングスクリプトを書いて仕込む
・再発する
・再発時のメトリクスをチェックする

ところがGitHub - prometheus/node_exporter: Exporter for machine metricsを入れていると最初からかなりのメトリクスを収集できます。なので普段はGrafanaでグラフ化してなくても障害時だけグラフを作ってチェックすることも可能です。

そのようなメトリクスの例としては下記があります。

dentry cache
node_memory_Slabでチェックできる。
遭遇しそうな事例はdentry cacheの解放 - wyukawa’s blog

AnonHugePages
node_memory_AnonHugePagesでチェックできる。
遭遇しそうな事例はSREグループができてこの半年間やってきたこと