ログ

ログ解析における統計値の妥当性

ログ解析における統計値の妥当性をどうやって担保するのかは難しい問題だと思っていてぶっちゃけ最終的にはオレを信じろ、でも間違ってたらゴメンの世界な気がする。社内で閉じていて外に出ない統計値ならまあいいんだけど、世の中そんな統計値ばかりではな…

Hadoopを使ったログ解析システムにおける時間別のジョブ、パーティションについてつらつらと書いてみる。

ログを1時間毎にためてそれをHadoopで処理するなんていうのはよくあるパターンではないかと思う。例えば時間別のPV, UUを求めたいとかね。その場合20130806-1800, 20130806-1900みたいなHiveパーティションを用意するのではないだろうか。20130806-1800パー…

ログのフォーマットやparse処理についてつらつら書いてみる。

ある程度構造化された半構造化ログのパターンとしては以下があると個人的には思ってる。 Apacheのcombined ログフォーマットや独自フォーマットなどである程度決まったフォーマットで保存されておりHuman Readableだけどログのparseに正規表現が必要なもの。…