Hiveの統計情報
Hive 0.7からanalyzeコマンドで統計情報が取れるようになりました。
[HIVE-1361] table/partition level statistics - ASF JIRA
メタストアをDerby以外にしてるのにderby.logとかTempStatsStoreとかあって何だろうと思ったら統計情報を保存しているようです。
ドキュメントもありました。ていうかこのページってトップからリンクされてないような。。。
StatsDev - Apache Hive - Apache Software Foundation
統計情報の保存先はDerby以外にはMySQLとHBaseが使えるようです。HBaseの意味がよくわからないですが、HiveとHbaseを統合した場合の話かな。
Hiveはいままではルールベースオプティマイザだったのですが、今後はコストベースオプティマイザ対応も進めるようでanalyzeコマンドの実装もその一貫みたいですね。
[HIVE-1938] Cost Based Query optimization for Joins in Hive - ASF JIRA
Hive使ってる人ってこれどうしてるんだろ。
set hive.stats.autogather=false;
とかしてオフにしてるのかオンのまま使って何かに活用してるのか。。。