HadoopのMapReduceジョブのチューニングに関する資料があったのでめもっとく

Hadoop Summit 2012でClouderaの人が発表した資料を見つけたのではっておく。

HadoopMapReduceジョブのチューニングに関するもので、内容的にはHadoop徹底入門の10章の「性能向上のためのチューニング」と若干かぶっているが参考になります。

spillとかのシャッフルフェーズをどうチューニングするかについて詳しく書かれていて、record fullってログに出てたらメタデータがspillしてるからよくないよねみたいなことが書かれてます。
徹底入門だと10.2.2の「Map処理でのフレームワークのチューニング」に書かれていますね。ていうかio.sort.record.percent(デフォルト0.05)っていじるものなのかな。。。

ただio.sort.record.percentというパラメータ自体が微妙なので下記にあるように0.21以降ではなくなっています。
https://issues.apache.org/jira/browse/MAPREDUCE-64


ま、個人的には

             /)
           ///)
          /,.=゙''"/
   /     i f ,.r='"-‐'つ____   こまけぇこたぁいいんだよ!!ノード増やせばいいじゃん!!
  /      /   _,.-‐'~/⌒  ⌒\
    /   ,i   ,二ニ⊃( ●). (●)\
   /    ノ    il゙フ::::::⌒(__人__)⌒::::: \
      ,イ「ト、  ,!,!|     |r┬-|     |
     / iトヾヽ_/ィ"\      `ー'´     /

に一票ですw

ま、スライドの32枚目のSummaryにも似たようなこと書いてありますよね。