Hadoop Conference Japan 2011 Fallに行ってきた

Hadoop Conference Japan 2011 Fallに行ってきました。

Hadoop Conference Japan 2011 Fall Tickets, Mon, Sep 26, 2011 at 10:00 AM | Eventbrite

まずはスポンサーのリクルート様、Hadoopユーザー会の皆様、発表者およびスタッフの皆様、ありがとうございました＆おつかれさまでした。m( )m

無料なのに1000人規模、ランチと飲み物付き、豪華な発表者陣、華やかな演出、小象本が割引セールなどなどいたれりつくせりな素晴らしいイベントでした。

内容についてはすでにITProの記事やブログにいろいろとあがってますね。スライドや動画もそのうちアップされるでしょう。

聞いたセッションは下記以外は全てCommunity Trackにいました。
『基幹バッチ処理から見たHadoop』
『NTTデータ流 Hadoop活用のすすめ〜インフラ構築・運用の勘所〜』

HBase,MapR,Hadoop 0.23といった新技術よりのことよりも現場寄りっぽい話をメインに聞きたかったのでこの選択にしました。とはいえ英語がんばったほうがいいですね。。。

興味深かった点をつらつら書いてみます。

『About Hortonworks』の質疑応答
42000台のノードの運用管理はどうやっているのか？
→手動w　ただスクリプトで設定ファイルを生成するというようなことはやっている。

まあなんというか、あれですな、汗と涙の臭いがただよってきますな。

『Mobage の大規模分析基盤とその活用』
HueをカスタマイズしてLDAPでアカウント管理というような話。

Hiveの認証をどうするかっていう課題に対する一つの回答だと思う。

『パネルログ分析』
ざっくりいうと「ログ解析してるんだけどHiveやPigだとMapReduceが多段になってパフォーマンス悪いからMapReduce直書きしてる。セカンダリソート大変。ていうかMapReduceを今まで100本以上書いた。ていうかログ解析全部一人でやってます。大変です。社員募集です」というLT。ほんとかw。ともあれ、いやー大変そうだw

『Hadoop and subsystems in livedoor』
個人的にはすごく内容は興味深かったので10分ではもったいなかった。フルセッションでもよかった。公開されたスライドを見る限りPerlでのHadoop Streamingでデータ整形してHiveのテーブルに突っ込んでいるように見えた。ひょっとしたらHiveではinsertはしないでselectしかしないのかも。今度聞いてみよう。

ここに限らずHiveのクライアントを自作してるところは多いなあと思った。まあ非IT系の人にHiveQL書いてもらうにしてもSSHしてVimで書けってのはちょっと無いわな。うっかりテーブルをdeleteされても困るし。

『基幹バッチ処理から見たHadoop』
個人的には今回のイベントのベストスピーカー。あの芸風は面白いw

内容はというと、HiveやPigはテストが弱い。基幹はBIと比べると品質が大事なのでこれでは使えない。なのでテストを重視したAsakusaを作った。大規模SIだといろんなスキルレベルの人が入ってくるので仕組みが重要。また設計をしないで実装に入ってデスマになるのを多く見てきた。設計重要。

ここでの設計というのは業務フローを整理し、バッチ化の対象を決め、input/outputを決めて、データフローを設計し、というようなことだと思う。それ以外には

SQLをちゃんと書ける人は少ない。念のためdistinctとか。SQL書けずビジネスセンスも無い人はベテランに聞くべし。酒を飲ませるとさらにいいかも。

とも言っていて、ここでベテランをイメージした銭形警部のスライド登場。がしかし、後日談で銭形警部が実は29歳だということが判明w　若いじゃんw

ソース
http://rocketnews24.com/2010/06/06/%E3%82%AA%E3%83%83%E3%82%B5%E3%83%B3%E3%81%98%E3%82%83%E3%81%AA%E3%81%84%EF%BC%81-%E3%80%8E%E3%83%AB%E3%83%91%E3%83%B3%E4%B8%89%E4%B8%96%E3%80%8F%E3%81%AE%E9%8A%AD%E5%BD%A2%E8%AD%A6%E9%83%A8%E3%81%AF2/

念のためdistinctのネタはDB弱者にはわからなかったんだが、どうやら無意味にdistinctを指定してパフォーマンスを悪くしてしまうことらしい。Oracleなら裏側でうまいこと実行計画たててくれるので問題無いらしいが、裏でgroup by相当の処理も走ってるだろうしまあパフォーマンス悪くなるかもね。

『NTTデータ流 Hadoop活用のすすめ〜インフラ構築・運用の勘所〜』
興味深かったのは電源系統の話。どういう話かって言うと、ノード数が多い場合はスイッチをつかってネットワークをきってラックを作る。でHadoopはこのラック情報を設定することによって、異なるラックにレプリカが作成されるようになる。これによって、片方のスイッチが故障しても別のスイッチ配下のネットワーク上のラックでジョブが実行できる仕組みになっている。しかし１つの電源で２つのスイッチをカバーしている場合は電源が故障した場合に両方のラックがアボーンしてしまったという話。これはHadoopが電源情報なんてシランのだから当然なのだがこんなことあるんだねえ。。。

『ミクシィにおけるhadoopの利用』
ニュース記事のレコメンドの話。聞いていて思ったのは、レコメンドの結果を人間がチェックしてアルゴリズムをチューニングするところが一番泥臭くて肝だよなあということ。

さて、個別のセッションの話はこれくらいにして全体的な感想も書いておこう。

まずHadoop関連の話って大きく３つあるような気がしている。

NTTデータさんのようなインフラ系の話
Livedoorさんでのログ解析基盤のようなミドルウェア、アプリ寄りの話
ミクシィさんのような分析系の話

で、まあ人がいないところは某氏のように全部を一人でやるって感じになって人手足りないから社員募集！って感じw

今回のカンファレンスの参加者は主に2番目のミドル、アプリ系の話を聞きにきたんじゃないかと推測する。ソースはオレひとりw

いやまあ別にそれ以外の話も面白いしいいんだけど、将来的には少なくとも1,2番目と3番目は分かれるかなあという気がしている。

分析屋さんって分析がしたいのであってHadoopは手段というか裏っかわの話だから別に知らなくてもいいよねって思う。現状はそこまでいってないと思うけど。

僕は以前バイオインフォマティックス関連の仕事をしていて分析っぽいこともしたことはある。EMアルゴリズムでハプロタイプ推定とかね。この分野って生物屋さんから言わせると生物の人というより数学、物理の人の分野らしい。まあ本来は統計よりの話なのでそっち方面なんだが統計学部ってあんま聞かないしね。Hadoopを使った分析もこういう数学、物理の人が活躍する分野かなあと思う。

ちなみに今となってはただのギャグにしか聞こえないが僕は数学で修士とったw
ただ数学科は統計をやらないので統計のことはよくわからんw
じゃあ統計じゃない数学はわかるのかと言われると。。。なのだ。
大学２年のときの位相で挫折した。さらに僕が群論を学んでいるときにガロアがその当時の僕ぐらいの年齢でガロア理論を打ち立てたことに愕然としたのを覚えている。

閑話休題

一方1番目のインフラ系と2番目のミドルウェア、アプリ寄りの方はそんなに分かれないかも。というのもどっちもある程度知ってないとトラブルシューティングできなそうだから。

まあ、こんな感じかな。いじょ。