2014-01-01から1年間の記事一覧

HiveServer2で 「java.lang.OutOfMemoryError: unable to create new native thread」といわれた

CentOS6上のHiveServer2で 「java.lang.OutOfMemoryError: unable to create new native thread」といわれたのでメモっておく。現象としては下記と同じに見える。リークしてるのか。。。https://issues.apache.org/jira/browse/HIVE-6866HDP使っているのです…

CognosからPrestogres経由でPrestoにつないだ話

先週いろいろとやっていてfrsyukiさんのおかげで動くようになったのでメモっておきます。CognosはBIツールです。Prestoはみんな知ってるよね。Prestogresが何かはこちらを参照。http://www.slideshare.net/frsyuki/presto-meetup要はBIツールからPrestoにつ…

HDPとAmbariを試している

HDP

今度新規にHadoopクラスタを構築する予定なのですが、HortonworksのHDPおよびAmbariをちょっと試しています。僕は今までApacheのコミュニティ版Hadoop 1系を1年ほど運用していたので、今どきのHadoop事情にうとかったんですがいろいろ変わってるんですね。 N…

南魚沼グルメマラソンで走ってきた

南魚沼グルメマラソンでハーフ走ってきました。暑かったですね。良い大会でした。東京駅から始発の新幹線乗ったのですが、周りがランナーだらけでした。浦佐駅から徒歩15分ぐらいのところが会場でこの大会はアクセスがよくて良いですね。走った後はコシヒカ…

HiveでJSON形式のデータを扱うようにして変更に強くする話

Hiveでは常識の部類に入る話なのかもしれませんが、僕が最近やったことなのでメモっておきます。たとば以下のCSVファイルがあったとします。なお今回の例はタムタムの日記 - HiveでJSON形式のログを構造化するからいただきました。m( )m name,exam1,exam2,ex…

プログラミング言語自体の開発など下回りを整備することについて

WWDCでAppleがSwiftを発表しましたけど、AppleのSwiftにしろGoogleのGoにしろFacebookのHackにしろ自社でプログラミング言語を作るってなんかすごいなと思いますね。それを作ることにはコストがすごくかかると思うんですけど、それでも作ると判断するのはど…

pull request後にupstreamに更新が入ったのでrebaseしてconflictを解消してpush -fする話

azkabanというソフトを使っていて手元でバグっぽいのを見つけたのでpull requestしたんですよ。How to Contributeに従ってまずGitHub issueを作ってその後、https://github.com/azkaban/azkaban2 から自分のところにforkして以下のように作業しました。まあ…

ログ分析環境を少しづつ作ってる

まだ本格的な運用は始まっていないけどログ分析環境を少しづつ作ってるのでメモっておく。ETL処理は既存資産の活用を考慮してPython 2.7でやっています。hiveserver2との接続はpythonからhiveserver2につなごうとしていろいろハマったのでメモっておく - wyu…

pythonからhiveserver2につなごうとしていろいろハマったのでメモっておく

CDH4.5のhiveserver2にpython 2.7+NOSASLでつなごうとしていろいろハマったのでメモっておきます。Setting Up HiveServer2 - Apache Hive - Apache Software Foundation をみると GitHub - BradRuderman/pyhs2をインストールして使えばいいようだがうまくい…

rebuildfm 44のJavaをdisっている話が面白かった

etc

Rebuild: 44: OS X Pier 39 (N, naan)の1時間14分ぐらいからJava API著作権侵害の話を皮切りにJavaの話が出てくるんだけど面白かった。まあはっきり言ってJavaをdisっているんだけど、しゃべり方がうまいせいか聞いてて思わず笑ってしまったw ちなみに僕はプ…

Hadoopを使ったログ分析システムにおける開発、デプロイのフローについて

Hadoopを使ったログ分析システムっていうのを何回か経験してて、そういえば開発、デプロイのフローがあんまりうまく回せなかったよなあと思ったのでそのあたりについて今日は書きたいと思います。まずネットワーク周りの前提から書きます。サーバーにログイ…

Macの環境構築

mac

諸事情があってMacBook Airを初期化したので再度環境構築する必要があったのでメモっておく。前回iMacでやったときのメモが下記にあったのでこちらも参考にする。 新しいiMacにインストールしたものおよび設定 - wyukawa’s blog最近はHomebrew Caskを使って…

データ分析環境について書いてみる

ログをHDFSに集めてHiveでETLや集計を行い集計結果をRDBMSに蓄積してレポーティングツールで可視化するというのは一般的な話だと思います。データの流れでいうと App -> HDFS -> RDBMS -> レポーティングツール という感じです。他にもPrestoのようなlow lat…

hiveのジョブをsubmitできずにそのままhiveクライアントプロセスが残り続ける現象について

再現性は無いんですけどHiveServer経由でhiveのジョブをsubmitしようとしてもできずにそのままhiveクライアントプロセスが残り続けるという現象に遭遇しました。 submitされてないのでMapReduceも進まないという状況です。ジョブが失敗している訳ではないの…

ランニングを始めて1年経ったので振り返ってみる

去年の5月からランニングを始めてだいたい1年経ったので振り返ってみる。ランニングアプリであるruntasticの記録をみると77回走ってトータル982kmでした。月ごとの走行距離はこんな感じ。そこそこ走っている時は週2でそれぞれ14,5km走ってました。走り始め…

LL言語でのhot deployとJavaでのhot deploy

JVM Operation Casual Talksで出てた話としてJavaでhot deployってどうしてんの?ってのがありました。hot deployっていうのはアプリケーションコードを変更してもAPサーバーを再起動せずに反映する技術です。この辺別に僕は全然知らないし答えを持っている…

掛川・新茶マラソン走ってきた

第13回 掛川・新茶マラソン【公式】初のフルマラソンです。結果はグロスタイムが4時間30分2秒。ネットタイムが4時間26分12秒でした。ひそかにサブ4を狙っていたのですが、そんなに甘くなかったですね。。。runtasticで計測した5kmごとのスプリットはこんな感…

リバプールがプレミアリーグを制したときキャラガーは何を思うだろう

今シーズンのプレミアリーグで最も魅力的なフットボールをしているチームがどこかと問われれば、僕はリバプールと答えます。現在の順位表は下記の通りで堂々の首位です。もっともシティが2試合少なくて2勝すると考えると2位です。ただしリパプールはチェルシ…

JVM Operation Casual Talksに参加して思ったことをつらつらと書く

JVM Operation Casual Talks : ATND内容は参加者のブログエントリとtogetterが下記にありますのでそちらを見るとよいと思います。JVM Operation Casual Talksに参加しました #jvmcasual - @johtaniの日記 2nd 「JVM Operation Casual Talks」発表資料のリン…

rebuild.fmのRubyクライアントを書きました

http://rebuild.fm/Go言語版とemacs版があったのでそれを参考にしました。 https://github.com/mattn/rebuildfm https://github.com/syohex/emacs-rebuildfm リポジトリは https://github.com/wyukawa/ruby-rebuildfm です。AppleScriptとiTunesを使って再生…

fluent-plugin-jstatを作った

jstatの結果を入力とするfluent-plugin-jstatを作りました。GitHub - wyukawa/fluent-plugin-jstat fluent-plugin-jstat | RubyGems.org | your community gem hostJavaアプリケーションのモニタリングというとJMXが思い浮かぶと思いますが、 JMXはアプリ起…

アドホックにHiveを実行する基盤としてshibを使っている

Hiveでデータ集計してKPIを定期的にレポーティングしているんですが、それとは別にアドホックにHiveを実行するということはよくありますよね。例えば企画の人が何かイベントしたのでその効果を知りたいとかですね。定期的に見たいKPIだったらそれはそれでち…

rebuildfm 35のAPIの話が面白かった

etc

Rebuild: 35: You Don't Need API Version 2 (Kenn Ejima)の最後の方のAPIの話が面白かったのでそれについて書いてみる。HTTP JSON APIにしろHiveServerが提供しているようなThrift APIにしろバックエンドにあるAPIサーバーにクライアントがアクセスして情報…

hiveserverのモニタリング

hiveserver(not hiveserver2)の調子が悪くOutOfMemoryが発生することもあるのでメモリを増やしつつモニタリングも強化してみている。メモリを増やしてかつGCログを取るためにhive-env.shに下記を追加。この例ではhiveserverのヒープを2GBにしている。 if [ "…

JobTrackerでFull GC

hadoop-env.shのHADOOP_JOBTRACKER_OPTSのところに下記を追加してコンカレントGCを有効にしてかつGCログも取りつつ運用していたのだが、JobTrackerでFull GCが連発するということがおこった。 -XX:+UseConcMarkSweepGCGCログはこんな感じ。この後もずっとFul…

第4回 お台場30キロマラソンを走ってきた。

天気が不安だったけれど、スタート時には雨はほとんどやんで気持ちよく走れました。最近走っている最中に足裏に違和感を感じたり右足が痺れたりというようなことがあってちょっと不安だったのですが、問題無かったです。走っていると、ユニフォームの背中に…

iOSのSSLに関するバグ

etc

なんかTLとRebuild: 33: There's No Test For goto fail (hotchpotch)で話題になってた。Apple史上最悪のセキュリティバグか、iOSとOS XのSSL接続に危険すぎる脆弱性が発覚──原因はタイプミス? | アプリオ 上記の記事を最初読んだときgoto failが常に実行さ…

情報共有の難しさ

etc

Rebuild: 32: How We Work Remotely (Naoya Ito)のリモートワークの話、、、というよりも情報共有、感情共有、情報格差を作らない、疎外感を抱かないようにする、辺りの話がすげ〜共感したのでちょっとブログ書いてみる。 ちなみにワタクシは在宅勤務したこ…

Fluentd+WebHDFSでappend書き込みしてて遭遇したエラー

fluent-plugin-webhdfs経由でHadoop 1.2.1のHDFSにデータをappendで書き込むということをやっているのだが、最近エラーが出るようになって困っている。再現性は無し。fluentdのログは下記のような感じ。要はある瞬間からHDFSに書き込めなくなってそのままバ…

2014湘南藤沢市民マラソン走ってきた。

天気が心配されたけど、雨は上がり快晴のもと16km走ってきました。スタートとゴールが江ノ島です。ネットタイム1時間21分4秒という結果でした。だいたい1km5分ってところですね。小江戸川越マラソン2013でハーフマラソン走ってきた - wyukawa’s blogのときよ…