Hadoopソースコードリーディング 第9回で発表してきました

Hadoopソースコードリーディング 第9回 Tickets, Wed, May 30, 2012 at 7:00 PM | Eventbrite

Hiveの勉強会をやらない?っていう話があって、最初は小規模でカジュアルな感じだろうなあと思ってました。Hive Casual Talkみたいな感じ。

でも気づけばモヒカンが多数集まることで有名?なHadoopソースコードリーディングで発表することになりました。

いやー、緊張したわー。モヒカンからマサカリとか椅子投げられたらどうしよーとか思ってました。

結論から言うとすごく楽しかったです。@tagomorisさんと@tamtam180さんという日本を代表するHiverの話をビールを飲みつつピザを食いつつ聞いてました。

@tagomorisさんの話ではクエリビルダーが気になりましたね。HiveQLを書く人って結局エンジニアに限られると思うのでこの手のツールは分析の裾野を広めるためには必要だろうなあと思います。

@tamtam180さんの発表は内容も面白かったんですが、語り口がゆるくていいですね。

ちなみに僕がしゃべったスライドはこちら

Hiveのソースを読んで感想を述べるというもはや誰得なプレゼンですね。
日本語でしゃべるのに英語で書いているのは最近の流行にのったのとそういうことをしたいお年頃だからです。

Query Compilerの部分を読んで挫折したという話です。

ソースの話とは別にHiveはSQL書ければクエリ書けるのでお手軽なツールです。目をつむって使えばちょっと遅いMySQLぐらいに思えるかもしれない。ただHiveではパフォーマンスチューニングの余地は少ないと思ってます。なのでそこを頑張るよりはデータモデルやETLを頑張る方が良いのかなと。もっというとデータロードが一番の検討ポイントかなと思います。そういう意味ではfluentdがその役割を担ってくるのかなあと思います。


最後に@hamakenさんをはじめとしたスタッフの皆様ありがとうございました!

このブログを書いたのはなんというかお礼を言うためです。

勉強会というのは参加するのも発表するのも大変ではありません。
大変なのは主催者側です。

発表者との調整、募集、会場設営、受付、エレベータ誘導、会場片付けなどなどやることは盛りだくさんです。
無線LANやUSTをやる場合はさらにやることが増えます。

しかもHadoopソースコードリーディングの場合はビアバッシュをやっているのでお金の徴収をする必要があります。ドタキャン問題もあるでしょう。ピザとビールの手配、片付けもする必要があります。ちなみに当日僕は23時近くまでいたのですが最終的な片付けはさらに後でしょうから本当におつかれさまです。スタッフの方々には感謝の言葉しかありません。ありがとうございました!