2011-08-01から1ヶ月間の記事一覧

Hadoop 0.23が近づいてきた

元ネタはHortonworksのこちらのブログ記事 http://www.hortonworks.com/preparing-for-next-release-of-apache-hadoop/0.23用のリリースブランチも作成されましたね。http://svn.apache.org/viewvc/hadoop/common/branches/branch-0.23/スライドはこちら Apa…

Facebookのデータウェアハウス

HDFS: Data warehousing at Facebook のリンク先にある論文http://borthakur.com/ftp/sigmodwarehouse2010.pdfではFacebookがどのようにデータウェアハウスを構築しているかが書かれています。興味深い論文なのですが気になった点を書きます。全体のシステム…

次世代MapReduceがtrunkにマージされた

元ネタはこちら http://www.hortonworks.com/nextgen-mapreduce-hits-apache-hadoop-mainline/Twitterのタイムラインがこれでちょっとホットになりましたね。次世代MapReduceが何かってのはこちら http://d.hatena.ne.jp/nokuno/20110216/1297808478 アップ…

Hiveのjoinの最適化

元ネタはこちら Join Optimization in Apache HiveHiveは0.7からjoinが最適化されています。どのように最適化されたのか上記の資料をひもといてみます。 いままでのjoinいままでのjoinはいわゆるソートマージジョインです。 mapフェーズでテーブルのデータを…

OracleからHiveへのマイグレーション資料

OracleからHiveへのマイグレーション資料をSlideShareで見つけたのでメモっておく。Oracle用のSQL, UDFをHiveでどう置き換えるかが書かれている。 全部で177ページもあるが、Hiveの内部構造(アーキテクチャ、クエリをどのように解析して実行計画つくって最…

Hiveの開発環境構築方法

Hiveのビルドエラー対応メモ - wyukawa’s blog でも少し書いたが、毎回忘れている気がするのでとりあえずめもっとく。gitはおそいのでsvnからソースを取ってくる svn checkout http://svn.apache.org/repos/asf/hive/trunk hive-trunkこんな感じでビルド。Hi…

Hive 0.6, 0.7の新機能メモ

Hiveいじる人がいっぱいいる場合はMySQLのデータベース名みたいなスキーマというか名前空間が絶対必要そうなんだが、そうでもないのかな。例えばFaceBookとか尋常でないテーブル数になってそうだけど、どうやってんのかな。Hiveを複数インストールしてんのか…

Hadoopのソースを読む際の参考資料

毎回探している気がするのでリンクだけめもっとく。 すべてHadoopソースコードリーディングというイベント時の発表資料です。■MapReduce関連 Google スライド - オンラインでプレゼンテーションを作成/編集できる無料サービスです Hadoopソースコードリーデ…

細かすぎて伝わらないHiveのTips

なんかドキュメントには書いてないっぽいんだけど地味に気づいたことを書いときます。 Tipsというほどではないメモですね。2つあります。1つめHiveQLのコメントは--です。例: --hoge SELECT * FROM aaa ANTLRの文法を定義したファイルであるHive.gは下記…