2011-09-01から1ヶ月間の記事一覧

Hadoop Conference Japan 2011 Fallに行ってきた

Hadoop Conference Japan 2011 Fallに行ってきました。Hadoop Conference Japan 2011 Fall Tickets, Mon, Sep 26, 2011 at 10:00 AM | Eventbriteまずはスポンサーのリクルート様、Hadoopユーザー会の皆様、発表者およびスタッフの皆様、ありがとうございま…

Hiveのベストプラクティス(かもしれないこと)をめもっておく

Hiveの現場に来て4か月経ち回りのやり方を観察したり、他の事例を調べたりしているうちにHiveを使用する際のパターンというかベストプラクティスが見えてきた気がするので書いてみるよ。ユースケースはログ解析です。 1. ファイルフォーマットと圧縮ログは圧…

HadoopのMapReduceのシャッフル

象本2版の6.4 シャッフルとソートを読んでMapReduceのシャッフルって面白いし興味深いなーと思い、ついでに軽くHadoop 0.20系のソースもあわせて読んでみたのでメモっておく。シャッフルっていうとまずソートのイメージだよね。ていうか僕自身はそうだった。…

HadoopでのMapReduce実行方法

HadoopでのMapReduce実行方法は以下の5つあるだろう。 Javaでごりごり実装 Asakusaつかって実装 Hadoopストリーミングを使って実装 Pig使う Hive使う 僕自身はもっぱらHiveだ。 Asakusaは全然わからないのでここでは触れないが、それ以外は象本読んで何とな…

HiveでMySQLを使ったLocal Metastoreの設定方法

情報はあるけど一応めもっとくCloudera版のHive 0.7.1をインストールするとデフォルトではEmbeded Metastoreになっている。この状態だとHiveのメタデータの管理がDerbyという組み込みDBを使っているので、単一プロセスからしか接続できない。なので複数のプ…

クラウド時代、ビッグデータ時代に求められるスキルは何なのか?

Google App EngineやAmazon EC2、Microsoft Azure、SalesforceなどのSaaS/PaaS/IaaSが広まるにつれて、 またHadoopやNoSQLのようなビッグデータを扱う技術が登場し広まるにつれて、 従来のシステム開発とは求められるスキルも変わってくるのではないかと思い…

Hadoopの異端さが面白い

Hadoopはほんとブームです。バブルだと言っていい気がします。各種セミナーはすぐに埋まりますし、実際に聞きに行くと会場は満員です。この分野は日本だとNTTデータが先頭をきったように見えます。 NTTデータ、Hadoopの商用ディストリビューション「CDH3」を…