Azkaban

最近のAzkabanについて書いてみる

最近Azkaban 3.30.0にupgradeして問題なく動いていることもあり、題記について書いてみようと思います。Azkabanはジョブ管理ツールとして基本的な機能は備えており、比較的簡単に使うことができます。 ただし以下の点で他の競合ツールと比べると見劣りするか…

Azkabanでflowが失敗したらJIRAにissueを作るpluginを実装した

タイトルの通りですが、まずAPI経由でJIRAにissue登録する方法は下記を見ればわかると思います。 https://developer.atlassian.com/jiradev/jira-apis/jira-rest-apis/jira-rest-api-tutorials/jira-rest-api-example-create-issue https://docs.atlassian.c…

azkaban-solo-server-3.15.0-1-g77411d7を使っていたらH2DBがぶっ壊れた

タイトルの通りです。今まではazkaban-solo-server-3.1.0を使っていてHadoopのバージョアップのタイミングでazkaban-solo-server-3.15.0-1-g77411d7にして運用していたら下記のようなエラーメッセージがでて http://localhost:8081/history にアクセスしても…

Azkabanについて書く

ちまたではAirflow(https://github.com/airbnb/airflow)が話題のようですが、Azkaban(http://azkaban.github.io/)を使っている身としてはやはりAzkabanについて書かねばならないと思ったので書きます。別にAzkabanを使ってほしいという意味ではないです。む…

Azkabanのジョブファイルを自動生成するツールを書きました

https://github.com/wyukawa/aydaydはAzkaban YAML DSLの略です。たいした事は全然やってなくて要するにYAMLからプロパティファイルを作っているだけです。例えば、のようなAzkabanのflowがあるとして、本来なら以下のようなファイルを用意する必要がありま…

バッチ処理、ジョブ管理について書いてみる

僕はHive, Pythonでバッチ処理を書いてAzkabanでジョブ管理するシステムを構築、運用した経験が2年ほどあるので今日はバッチ処理、ジョブ管理について書いてみようと思います。僕の経験上Hadoop特有の部分、例えばテスト環境が作りづらいとかバッチサーバー…

ETLフレームワークとジョブ管理

Treasure Dataが面白い記事を書いていたのでこれに関連してETLフレームワークとジョブ管理について僕の経験、意見を書いてみようと思います。 Managing the Data Pipeline with Git + Luigi - Treasure Data Blogリンク先の記事を僕なりに要約すると、データ…

Azkabanについて書いてみる

どうも、こんにちは、Azkabanユーザのwyukawaです。 Azkabanはジョブ管理ツールです。Hadoopとセットで語られることが多いと思いますが、別にHadoop使ってなくても使えます。 Azkabanは1と2があって別物なのですが、両方を触ったことがあります。Azkaban1だ…

AzkabanのCLIツールeboshiを書きました

https://github.com/wyukawa/eboshiインストール方法と使い方はREADMEを見てください。名前はサザンのチャコの海岸物語の「烏帽子岩が見え〜てきた、俺の家も近い」から取りました。特に意味は無いです。 最初はAzkabanCliとかそんな感じの名前にしようかと…