Hadoopのトラブルシューティングに関する資料があったのでめもっとく
Hadoop World 2011でClouderaの人が発表した資料を見つけたのではっておく。
Clouderaのサポートチームの極意が詰め込まれているようだ。
内容的にはHadoop徹底入門の10章の「性能向上のためのチューニング」と若干かぶっているが参考になります。
io.sort.mb < mapred.child.java.opts とすることとか(ていうかmapred.child.java.optsを増やすことはあるかもしれないがio.sort.mbっていじるもんなのかな)、プロセス数やファイルディスクリプタいじれとか、map出力のスレッドいじれとか、Jetty 6.1.26は使うなとか、盛りだくさんです。
これを見ておもったのはHadoop自体の設定をいじるだけじゃなくて場合によってはOSレベルのチューニングも必要だということ。
この辺はDBのパフォーマンスチューニングとも似ているかも。
HadoopもDBもIOと戦う?ソフトなのでパフォーマンスチューニングとかトラブルシューティングするには下のレイヤー、つまりOSレベルの話が重要になったりするんだろうなあと思った。
だからDB屋さんはHadoop市場?にすぐ参入できると思うし、重宝されると思う。
あとはOSレベルじゃないんだけどJetty 6.1.26は使うなっていうのもねえ。。。Hadoopそのものの問題じゃないしClouderaサポートチーム大変だわ。JettyはHadoopが依存しているライブラリというかサーブレットコンテナですが、どうもJettyがらみでいろいろ問題があったらしいです。たぶんこれ。
[MAPREDUCE-2980] Fetch failures and other related issues in Jetty 6.1.26 - ASF JIRA
なのでJettyにパッチ当てたヤツをCDH3u2に同梱しているようです。