Prometheus

node_exporter入れると取れるちょっとマニアックなメトリクス

モニタリングツール系ってagent入れればロードアベレージ、ディスク使用量、メモリ使用量、Disk IO、ネットワークトラフィックなどはどれも取れると思います。ただしそれらのメトリクスだけではトラブルシューティングに不十分な場合があります。 なおここで…

Prometheus Casual Talks #2を開催しました

Prometheus Casual Talks #2 - connpassPrometheus Casual Talks #2 まとめ - TogetterPrometheus開発者のBrian Brazilさんが来日するのでそれにあわせてPrometheus Casual Talks第二回を開催しました。第一回の様子はPrometheus Casual Talks #1を開催しま…

Prometheusのストレージ

Prometheusのストレージ周りに関してちょっと調べたのでメモっておく。間違っているところや補足すべきものがあれば教えてもらえると嬉しいです。公式ドキュメントはこちら https://prometheus.io/docs/operating/storage他に参考になりそうな資料としてはこ…

PromCon 2016に行って発表してきました。

Prometheus初のカンファレンスがベルリンで2日間開催されそこに行って発表してきました。 https://promcon.io/僕の発表スライドはこちら Promcon2016 from wyukawa 質疑応答はグダリましたがなんとかやりとげました。会社の人にはスライドをチェックしてもら…

Prometheus London meetupでLTしてきました。

Prometheus Core Developer Björn Rabenstein Open Q&A | Meetup最初にビザとビールで腹と喉を潤した後に僕がトップバッターでLTしました。僕のLTスライドはこちら Prometheus london from wyukawa 英語につっかえながらもなんとか5分間のLTをやりとげました…

Prometheus Casual Talks #1を開催しました

Prometheus Casual Talks #1 - connpass発表者、参加者の皆様おつかれさまでした。ありがとうございました。Prometheusは日本ではあんまり使われていないと思うのでそんなに人集まらないと思ってたんですが、connpassに公開したその日にすぐ定員はうまるぐら…

fluentdのCPU使用率をPrometheus, Grafanaでモニタリングしたい

fluentdはRubyで実装されていることもあり複数CPUを使えないので、トラフィックが増えてきた場合などはポートを分けて複数プロセスで起動することが一般的です。なのでマシンごとのCPU使用率を見てもfluentdの状況がどうなのか判断することは難しいです。ち…

レポーティング、モニタリング、監視で使うストレージは何が良いんだろう

題記のようなことを考えていて、レポーティング、モニタリング、監視で使うストレージは全部統一されているほうが当然運用が楽だと思うのですが、現状だと統一できなくて用途ごとに分けてHadoop, Prometheus, Elasticsearchに格納するというのが僕の今のとこ…

アクセスログをfluent-plugin-prometheusで集計してGrafanaで表示する

アクセスログをfluent-plugin-prometheusで集計してgrafanaで表示するというのを試したのでメモがてら書いておきます。現状fluent-agent-liteでアクセスログを収集してサンプリングや集計をして最終的にGrowthforecastで表示する仕組みが社内にあります。イ…

jstat_exporterを作った

hadoop用のexporterを作ってみた。 - wyukawa’s blogに続いてjstat_exporterを作りました。https://github.com/wyukawa/jstat_exporterこれはモニタリング対象のjavaプロセスに対してjstatコマンドを実行します。今まではjstat2gfを使ってGrowthforecastにな…

hadoop用のexporterを作ってみた。

https://github.com/wyukawa/hadoop_exporterといってもNameNodeとResourceManagerの代表的なメトリクスだけです。取得するメトリクスは https://github.com/ryukobayashi/hadoop-metrics2 を参考にしました。実装自体は https://github.com/neezgee/apache_…

net.ipv4.tcp_tw_recycle = 1したらTIME_WAITが減った話

Hadoop環境だとOSのカーネルパラメータをいじることは一般的です。僕の環境だとだいたいのパラーメータはすでに設定済みでマシンがくるわけなんですが、 netstat -anp | grep TIME_WAIT | wc -lしたらTIME_WAIT数がやたら多くて気になってました。ちなみflue…

Prometheusについて書いてみる

現状のモニタリング、監視の仕組みにあまり満足していない部分があって、別のツールないかなあと思ってたらふとしたきっかけでPrometheusを知りました。これちょっと面白そうなんで書いときます。https://prometheus.io日本語の記事だと【入門】Prometheusで…