Hadoopのトラブルシューティングに関する資料があったのでめもっとく

Hadoop World 2011でClouderaの人が発表した資料を見つけたのではっておく。

Clouderaのサポートチームの極意が詰め込まれているようだ。

内容的にはHadoop徹底入門の10章の「性能向上のためのチューニング」と若干かぶっているが参考になります。

io.sort.mb < mapred.child.java.opts とすることとか(ていうかmapred.child.java.optsを増やすことはあるかもしれないがio.sort.mbっていじるもんなのかな)、プロセス数やファイルディスクリプタいじれとか、map出力のスレッドいじれとか、Jetty 6.1.26は使うなとか、盛りだくさんです。

これを見ておもったのはHadoop自体の設定をいじるだけじゃなくて場合によってはOSレベルのチューニングも必要だということ。

この辺はDBのパフォーマンスチューニングとも似ているかも。

HadoopもDBもIOと戦う?ソフトなのでパフォーマンスチューニングとかトラブルシューティングするには下のレイヤー、つまりOSレベルの話が重要になったりするんだろうなあと思った。

だからDB屋さんはHadoop市場?にすぐ参入できると思うし、重宝されると思う。

あとはOSレベルじゃないんだけどJetty 6.1.26は使うなっていうのもねえ。。。Hadoopそのものの問題じゃないしClouderaサポートチーム大変だわ。JettyはHadoopが依存しているライブラリというかサーブレットコンテナですが、どうもJettyがらみでいろいろ問題があったらしいです。たぶんこれ。
[MAPREDUCE-2980] Fetch failures and other related issues in Jetty 6.1.26 - ASF JIRA

なのでJettyにパッチ当てたヤツをCDH3u2に同梱しているようです。