HadoopのMapReduceジョブのチューニングに関する資料があったのでめもっとく
Hadoop Summit 2012でClouderaの人が発表した資料を見つけたのではっておく。
HadoopのMapReduceジョブのチューニングに関するもので、内容的にはHadoop徹底入門の10章の「性能向上のためのチューニング」と若干かぶっているが参考になります。
spillとかのシャッフルフェーズをどうチューニングするかについて詳しく書かれていて、record fullってログに出てたらメタデータがspillしてるからよくないよねみたいなことが書かれてます。
徹底入門だと10.2.2の「Map処理でのフレームワークのチューニング」に書かれていますね。ていうかio.sort.record.percent(デフォルト0.05)っていじるものなのかな。。。
ただio.sort.record.percentというパラメータ自体が微妙なので下記にあるように0.21以降ではなくなっています。
https://issues.apache.org/jira/browse/MAPREDUCE-64
ま、個人的には
/) ///) /,.=゙''"/ / i f ,.r='"-‐'つ____ こまけぇこたぁいいんだよ!!ノード増やせばいいじゃん!! / / _,.-‐'~/⌒ ⌒\ / ,i ,二ニ⊃( ●). (●)\ / ノ il゙フ::::::⌒(__人__)⌒::::: \ ,イ「ト、 ,!,!| |r┬-| | / iトヾヽ_/ィ"\ `ー'´ /
に一票ですw
ま、スライドの32枚目のSummaryにも似たようなこと書いてありますよね。