Hadoop MapReduce デザインパターンの4章を読んでみた。

4章は転置インデックスの生成をMapReduceでどう実現するかという話。

4.3 転置インデックスの生成：基準となる実装

では素朴な実装が示されています。疑似コードはこんな感じ

この場合Reduce側ではメモリ上でのソートが走るのでスケーラビリティに問題があります。

4.4 転置インデックスの生成：改良版の実装

では改良例が示されています。セカンダリソートを使います。疑似コードはこんな感じ

Javaでの実装はこちらを参考にするといいでしょう。

4.5 インデックスの圧縮　以降は読み飛ばしましたw

また本を読む際に参考になるスライドは下記です。

検索エンジンのための転置インデックス作成 #hadoopreading

View more presentations from Yoh Okuno

Data-Intensive Text Processing with MapReduce ch4