HBaseについての情報源

クレジットカード現金化詐欺【業界人が教える口コミ情報】
の12/2分として書きます。

内容は薄いというかHBaseの情報源についてのまとめエントリです。

■本家

■書籍

HBase

HBase

通称馬本。なにはさておきまずはこれ。
序盤はJava APIの解説が多いが8章がアーキテクチャの話でここがメインだと思う。

HBase in Action

HBase in Action

  • 作者: Nick Dimiduk,Amandeep Khurana
  • 出版社/メーカー: Manning Publications
  • 発売日: 2012/11/17
  • メディア: ペーパーバック
  • クリック: 2回
  • この商品を含むブログを見る

ちゃんと読んでないけど馬本とは違った観点から書かれている感じ

この本については以前少し書きました。

HBase Administration Cookbook

HBase Administration Cookbook

ちゃんと読んでないけど逆引きっぽい感じ

slideshare

HBaseって何?っていうときのとっかかりの資料としてはこれを見るのがいいと思う。

■ブログ

よく読んでないけどClouderaのブログ記事が参考になると思う。たぶん。

例えば最近リージョン管理の改善についての話がポストされました。
Apache HBase AssignmentManager Improvements - Cloudera Engineering Blog

HBaseはリージョンという単位でデータを管理していてリージョンがどのリージョンサーバーに配置されているかを管理するのが大切です。
リージョン自身はレプリカをもっておらず1つのリージョンは1つのリージョンサーバーにassignされます。
1つのリージョンが複数のリージョンサーバーにassignされたり、リージョン間で重複したデータを持つことはありません。
しかしディスク障害などでリージョンの状態が不整合になることがあります。hbckというツールでその辺を検出したり復旧したりします。

上記エントリではリージョンの状態はMETA, Masterのメモリ, ZooKeeperの/hbase/unassignedの3つで追跡されていてそれをいかに矛盾なく管理するように改善したかという話が書かれています。たぶん。

この辺のリージョン管理の話がHBaseではキモになってくるような気がするんですがなかなか理解するのが難しいなあと思っているところです。馬本にリージョンのライフサイクルの話は書かれていますがsplitやmoveしたときメタデータはどう変わるの?とかまでは具体的に書かれていないのでその辺は自分で調べる必要がありそうです。