次世代MapReduceがtrunkにマージされた
元ネタはこちら
http://www.hortonworks.com/nextgen-mapreduce-hits-apache-hadoop-mainline/
Twitterのタイムラインがこれでちょっとホットになりましたね。
次世代MapReduceが何かってのはこちら
- http://d.hatena.ne.jp/nokuno/20110216/1297808478
- アップグレードと異なるプログラミングパラダイムのためのHadoop再設計
- 「次世代Hadoopの開発に着手する」Yahoo!が宣言、数万台以上のクラスタをサポートへ - Publickey
Hadoop Summit 2011でも発表がありました。
NextGen Apache Hadoop MapReduce
View more presentations from Hortonworks
現状のHadoopのMapReduceはマスターが1つのJobTrackerでスレーブが複数のTaskTrackerというアーキテクチャです。
このアーキテクチャを一掃するというもの。
対応するJIRAはこちら
[MAPREDUCE-279] Map-Reduce 2.0 - ASF JIRA
なんでも今の実装だとスケールする上限が4000台程度だが、次世代MapReduceなら10000台いけるそうです。そんなに使う企業がどれぐらいあるんだってのはありますがw
これをYahoo/Hortonworksの人が10人ほどでフルタイムで従事して作業していたようです。
去年の8月から開始して、最初のチェックインが今年の3月。100KS、100人月、期間は12か月というプロジェクトだったようです。
そしてMR-279というブランチで作業を続けていたものがついにtrunkにマージされました。
JIRAを見るとバージョンが0.23になってますが、まだ0.22も出てないんですけどねw
これがいつリリースされるのかとか、CDHが対応するのかとか、今後もいろいろ動きがありそうですねー。
ま、現場は当面0.20系な気もしますがw