2014-05-01から1ヶ月間の記事一覧

ログ分析環境を少しづつ作ってる

まだ本格的な運用は始まっていないけどログ分析環境を少しづつ作ってるのでメモっておく。ETL処理は既存資産の活用を考慮してPython 2.7でやっています。hiveserver2との接続はpythonからhiveserver2につなごうとしていろいろハマったのでメモっておく - wyu…

pythonからhiveserver2につなごうとしていろいろハマったのでメモっておく

CDH4.5のhiveserver2にpython 2.7+NOSASLでつなごうとしていろいろハマったのでメモっておきます。Setting Up HiveServer2 - Apache Hive - Apache Software Foundation をみると GitHub - BradRuderman/pyhs2をインストールして使えばいいようだがうまくい…

rebuildfm 44のJavaをdisっている話が面白かった

etc

Rebuild: 44: OS X Pier 39 (N, naan)の1時間14分ぐらいからJava API著作権侵害の話を皮切りにJavaの話が出てくるんだけど面白かった。まあはっきり言ってJavaをdisっているんだけど、しゃべり方がうまいせいか聞いてて思わず笑ってしまったw ちなみに僕はプ…

Hadoopを使ったログ分析システムにおける開発、デプロイのフローについて

Hadoopを使ったログ分析システムっていうのを何回か経験してて、そういえば開発、デプロイのフローがあんまりうまく回せなかったよなあと思ったのでそのあたりについて今日は書きたいと思います。まずネットワーク周りの前提から書きます。サーバーにログイ…

Macの環境構築

mac

諸事情があってMacBook Airを初期化したので再度環境構築する必要があったのでメモっておく。前回iMacでやったときのメモが下記にあったのでこちらも参考にする。 新しいiMacにインストールしたものおよび設定 - wyukawa’s blog最近はHomebrew Caskを使って…

データ分析環境について書いてみる

ログをHDFSに集めてHiveでETLや集計を行い集計結果をRDBMSに蓄積してレポーティングツールで可視化するというのは一般的な話だと思います。データの流れでいうと App -> HDFS -> RDBMS -> レポーティングツール という感じです。他にもPrestoのようなlow lat…