2013-08-01から1ヶ月間の記事一覧

「ふつうのLinuxプログラミング Linuxの仕組みから学べるgccプログラミングの王道」を読んでみた

ふつうのLinuxプログラミング Linuxの仕組みから学べるgccプログラミングの王道作者: 青木峰郎出版社/メーカー: ソフトバンククリエイティブ発売日: 2005/07/27メディア: 単行本購入: 35人 クリック: 450回この商品を含むブログ (150件) を見る目次はこちら …

ログ解析における統計値の妥当性

ログ解析における統計値の妥当性をどうやって担保するのかは難しい問題だと思っていてぶっちゃけ最終的にはオレを信じろ、でも間違ってたらゴメンの世界な気がする。社内で閉じていて外に出ない統計値ならまあいいんだけど、世の中そんな統計値ばかりではな…

本番サービス用Hadoopクラスタと統計用Hadoopクラスタの違い

僕が日頃触っているのは統計用Hadoopクラスタで本番サービス用Hadoopクラスタのことはそんなに分からないんだけど見た範囲で言うと違いがいくつかある。本番サービス用Hadoopクラスタっていうのは例えばTwitterのようなつぶやきサービスだったらつぶやきを保…

buffer_chunk_limit x buffer_queue_limit x fluentdの起動プロセス数

唯一、buffer_chunk_limit と buffer_queue_limit をかけた総メモリ使用量がマシン全体で使えるメモリ量よりも小さくなるようにすること、という点のみ気をつけよう。 Fluentd out_forward における最適化パラメータいくつかの話 - たごもりすメモ これを気…

Hadoopを使ったログ解析システムにおける時間別のジョブ、パーティションについてつらつらと書いてみる。

ログを1時間毎にためてそれをHadoopで処理するなんていうのはよくあるパターンではないかと思う。例えば時間別のPV, UUを求めたいとかね。その場合20130806-1800, 20130806-1900みたいなHiveパーティションを用意するのではないだろうか。20130806-1800パー…

ログのフォーマットやparse処理についてつらつら書いてみる。

ある程度構造化された半構造化ログのパターンとしては以下があると個人的には思ってる。 Apacheのcombined ログフォーマットや独自フォーマットなどである程度決まったフォーマットで保存されておりHuman Readableだけどログのparseに正規表現が必要なもの。…