Hiveの統計情報

Hive 0.7からanalyzeコマンドで統計情報が取れるようになりました。
[HIVE-1361] table/partition level statistics - ASF JIRA

メタストアをDerby以外にしてるのにderby.logとかTempStatsStoreとかあって何だろうと思ったら統計情報を保存しているようです。

ドキュメントもありました。ていうかこのページってトップからリンクされてないような。。。
StatsDev - Apache Hive - Apache Software Foundation

統計情報の保存先はDerby以外にはMySQLとHBaseが使えるようです。HBaseの意味がよくわからないですが、HiveとHbaseを統合した場合の話かな。

Hiveはいままではルールベースオプティマイザだったのですが、今後はコストベースオプティマイザ対応も進めるようでanalyzeコマンドの実装もその一貫みたいですね。
[HIVE-1938] Cost Based Query optimization for Joins in Hive - ASF JIRA

Hive使ってる人ってこれどうしてるんだろ。
set hive.stats.autogather=false;
とかしてオフにしてるのかオンのまま使って何かに活用してるのか。。。