HadoopのMapReduceジョブのチューニングに関する資料があったのでめもっとく

Hadoop Summit 2012でClouderaの人が発表した資料を見つけたのではっておく。

Hadoop Summit 2012 | Optimizing MapReduce Job Performance

View more PowerPoint from Cloudera, Inc.

HadoopのMapReduceジョブのチューニングに関するもので、内容的にはHadoop徹底入門の10章の「性能向上のためのチューニング」と若干かぶっているが参考になります。

spillとかのシャッフルフェーズをどうチューニングするかについて詳しく書かれていて、record fullってログに出てたらメタデータがspillしてるからよくないよねみたいなことが書かれてます。
徹底入門だと10.2.2の「Map処理でのフレームワークのチューニング」に書かれていますね。ていうかio.sort.record.percent（デフォルト0.05）っていじるものなのかな。。。

ただio.sort.record.percentというパラメータ自体が微妙なので下記にあるように0.21以降ではなくなっています。
https://issues.apache.org/jira/browse/MAPREDUCE-64

ま、個人的には

　　　　　　　　　　　　 ／）
　　　　　　　　　　　／／／）
　　　　　　　　　 ／,.=ﾞ''"／
　　　／　　　　 i f　,.r='"-‐'つ＿＿＿_　　　こまけぇこたぁいいんだよ！！ノード増やせばいいじゃん！！
　　/　　　　　 /　　　_,.-‐'~／⌒　　⌒＼
　　　　／　 　,i　　　,二ﾆ⊃（ ●）.　（●）＼
　　　/　 　　ﾉ　　　 ilﾞフ::::::⌒（__人__）⌒::::: ＼
　　　　　　,ｲ｢ﾄ､　　,!,!|　　　　　|r┬-|　　　　　|
　　　　　/　iﾄヾヽ_/ｨ"＼ 　　 　 `ー'´ 　 　 ／

に一票ですw

ま、スライドの32枚目のSummaryにも似たようなこと書いてありますよね。