Hadoop MapReduce デザインパターンの4章を読んでみた。
4章は転置インデックスの生成をMapReduceでどう実現するかという話。
4.3 転置インデックスの生成:基準となる実装
では素朴な実装が示されています。疑似コードはこんな感じ
この場合Reduce側ではメモリ上でのソートが走るのでスケーラビリティに問題があります。
4.4 転置インデックスの生成:改良版の実装
では改良例が示されています。セカンダリソートを使います。疑似コードはこんな感じ
Javaでの実装はこちらを参考にするといいでしょう。
4.5 インデックスの圧縮 以降は読み飛ばしましたw
また本を読む際に参考になるスライドは下記です。
検索エンジンのための転置インデックス作成 #hadoopreading
View more presentations from Yoh Okuno