Hadoop MapReduce デザインパターンの4章を読んでみた。

4章は転置インデックスの生成をMapReduceでどう実現するかという話。


4.3 転置インデックスの生成:基準となる実装


では素朴な実装が示されています。疑似コードはこんな感じ

この場合Reduce側ではメモリ上でのソートが走るのでスケーラビリティに問題があります。


4.4 転置インデックスの生成:改良版の実装


では改良例が示されています。セカンダリソートを使います。疑似コードはこんな感じ

Javaでの実装はこちらを参考にするといいでしょう。

MapReduce デザインパターン (5) - めもめも


4.5 インデックスの圧縮 以降は読み飛ばしましたw


また本を読む際に参考になるスライドは下記です。