Presto Meetupで発表してきました

Presto Meetup|IT勉強会ならTECH PLAY[テックプレイ]で発表してきました。
会場を提供していただいたフリークアウトさん、ならびにスタッフ、発表者、参加者の皆様ありがとうございました。

僕のスライドはこちら

こうした勉強会で発表するのは約2年ぶりでちょっと緊張して声がうわずったりして聞きづらいところがあったと思いますが暖かい目で見守っていただいてありがとうございました。

スライドだけ見てもわかりづらいところがあると思うので簡単に捕捉します。

僕は仕事ではデータ分析をやるチームに所属していてサービス開発は行っていません。

サービス開発側のDBからsqoopでデータを引っ張ってきてHadoopクラスタにためて処理をしています。DB以外にもデータソースはありますがDBがメインです。ログ収集という用途が今のところ無いのでfluentdは使っていません。なのでストリーミング処理もやってないです。またオンプレミス環境です。

PythonでETL処理を書いていてAzkabanでジョブスケジューリングしています。Pythonといっても実態はHiveを実行しているだけです。

HiveはMR2上で動いています。現在はAmbariで構築したHDP2.1を使っていますが、HDP2.2へのアップグレードが出来ればTezも試そうかなあと考えています。実はHDP2.1でもTezは使えるのですがHDP2.2に同梱されているTezの方がいいと某氏が言っていたので。

PrestoのworkerはHadoopのスレーブノードと同居しています。

OLAP分析用にInfiniDBを使っているのですが、開発が終了したことと安定性に懸念があるのでリプレースを検討しています。それならPrestoでOLAPはどうだという話もあって、Prestoがimplicit joinをサポートしたことによりそれも可能かなと思って試したらOutOfMemoryが出たので別の方法を検討中です。

懇親会でしゃべった感じではCognosを含めたBIツールはいろいろアレな感じなので自作した方がいいのではという話があって、実際僕もそう思います。しかし一方でちょっと凝ったレポートになると自作ツールではカバーしきれないのでその辺がBIツールの出番なのかなと思ってます。

dentry cacheの件は別にPostgreSQLだからというわけでもないようでCentOS 6.7で直るかもという話でした。

Prestoは安定しているのであんまりちゃんとモニタリングしてなくて新しいバージョンが出たら割とすぐにAnsibleを使ってデプロイしています。0.80と0.87の時はバージョンアップしたら問題が出たのでロールバックしました。

最後に言いたかったことはPrestoはバージョンアップが頻繁だしアップグレードも容易なのでレバレッジが効いて良いツールだと言う事です。