Hadoop
6月ごろからHadoopのworker系nodeつまりdatanode, nodemanager, presto workerが動いているnodeでkernel panicが多発するようになって困っていてまだ解決はしていないのですが、メモっておきます。ログ分析基盤として使っているHadoopクラスタで深夜帯にバッ…
abstractやスライドは下記からたどれます。https://conferences.oreilly.com/strata/strata-eu/public/schedule/detail/65222一度はrejectされたCFPが2週間前になってacceptになったので慌てて準備して発表してきました。20人ぐらいは来てくれたかな。発表直…
abstractやスライドは下記からたどれます。 https://conferences.oreilly.com/strata/strata-sg/public/schedule/detail/629482014年5月に異動してから新規に構築したHadoopクラスタの3年にわたる歴史を紹介しております。Hadoopに初めて触ったのが6年前にSI…
8:20から9時ぐらいまで断続的にoutboundトラフィックが増えてなんでだろって思ったのでtcpdumpしてみた。やり方は下記参照 定期的にtcpdumpをある期間だけ実行したいという時 - その手の平は尻もつかめるさHadoopのdatanodeマシンを一つ使って以下のようにcr…
Hadoopソースコードリーディング 第22回 Tickets, Fri, Mar 3, 2017 at 6:45 PM | Eventbrite 関係者の皆様おつかれさまでした。ありがとうございました。スライドはこちら Upgrading from-hdp-21-to-hdp-25 from wyukawa Hadoopアップグレードの話をしまし…
wyukawa's tumblr, descicoさんとHadoopについて話しました Guest descico Show...でも少し話したけど、日本語で読めるHadoop本が古くなっていて今だとちょっと勉強しづらい状況です。なので、僕だったら、下記のような目次の「はじめてのHadoop」を読みたい…
約1年前に別のHadoopクラスタをHDP2.1からHDP2.4にアップグレードした話はHadoopソースコードリーディング 第20回で発表しました。Hadoopソースコードリーディング 第20回で発表してきました - wyukawa’s blogこのクラスタはデータソースがFluentdからのほぼ…
Oracle DBに対してsqoop importするときに下記のようにurandomを使うのは割と一般的な話かなと思います。 sqoop import -D mapreduce.map.java.opts="-Djava.security.egd=file:/dev/../dev/urandom" ...sqoopのマニュアルにも書いてありますね。 https://sq…
http://hadoopsummit.org/tokyoチケット代が約4万円で高いと噂になったHadoop Summit Tokyo 2016に行ってきました。ただ海外ではこのぐらいの値段は普通らしく、むしろ日本が異常に安すぎるという。 そのしわ寄せがイベント運営者にいってしまっているのが現…
題記のようなことを考えていて、レポーティング、モニタリング、監視で使うストレージは全部統一されているほうが当然運用が楽だと思うのですが、現状だと統一できなくて用途ごとに分けてHadoop, Prometheus, Elasticsearchに格納するというのが僕の今のとこ…
Hadoopソースコードリーディング 第20回 Tickets, Thu, Mar 24, 2016 at 7:00 PM | Eventbrite関係者の皆様おつかれさまでした。ありがとうございました。スライドはこちら Upgrading from-hdp-21-to-hdp-24 from wyukawa HDP2.1からHDP2.3.4へblue green de…
2種類のログ解析基盤 - wyukawa’s blogで書いた1つ目のエンジニアよりの解析基盤をHDP2.1からHDP2.4にupgradeしました。upgradeがちゃんと終わったのは昨日なのでまだ何かあるかもしれませんが、メモがてら書いておきます。upgradeのやり方はblue green depl…
Hadoop環境だとOSのカーネルパラメータをいじることは一般的です。僕の環境だとだいたいのパラーメータはすでに設定済みでマシンがくるわけなんですが、 netstat -anp | grep TIME_WAIT | wc -lしたらTIME_WAIT数がやたら多くて気になってました。ちなみflue…
以前2種類のログ解析基盤 - wyukawa’s blogで書いたログ解析基盤のうち2つ目のプランナーよりのシステムが現在どうなっているかを書いてみたいと思います。 ちなみに1つ目のエンジニアよりのシステムの方も更新はあって、Fluentd+Norikra+Elasticsearch+Kiba…
僕は仕事では2種類のログ解析基盤を見ています。1つ目はどちらかというとエンジニアよりの解析基盤でサービス側のエンジニアがShib, ShibUIを通して好きにクエリを投げることができます。ただしtableをcreateしたりdropしたりinsertしたりはできません。sele…
1月のPresto Meetupでログ解析基盤について少し話してから3ヶ月弱経ったんだけどその時から若干変わったのでメモっておく。以前はこんな感じでした。 Presto in my_use_case from wyukawa Prestoは今は0.100を使っていて特に問題は発生してないです。 Cognos…
先週のことだけどTreasure Data Tech Talkに行ってきました。主催者のTreasure Dataさん、会場を提供をしてくださったDeNAさん、またイベント開催にご協力頂いたdots.さん、ありがとうございます。寿司おいしかったです。セッションの内容は Treasure Data T…
Hadoop and the Modern Data Architecture に行ってきました。立派なホテルで良いイベントでした。ありがとうございました。> Hortonworksのみなさまセッションや会場にいた人との会話について少し書きます。まず僕が使っているAmbariに関して発表がありま…
HDP2.1環境でMySQLに対してsqoop importしたら以下のようなOutOfMemoryErrorが出た。 2014-07-29 15:58:15,994 FATAL [main] org.apache.hadoop.mapred.YarnChild: Error running child : java.lang.OutOfMemoryError: GC overhead limit exceeded at com.my…
Hadoop Conference Japan 2014 Tickets, Tue, Jul 8, 2014 at 10:00 AM | Eventbrite第5回になるそうです。僕は3回目から参加していますが、毎度のことながらランチが出るし至れり尽くせりのカンファレンスですね。スタッフの皆様ありがとうございます。m( …
まだ本格的な運用は始まっていないけどログ分析環境を少しづつ作ってるのでメモっておく。ETL処理は既存資産の活用を考慮してPython 2.7でやっています。hiveserver2との接続はpythonからhiveserver2につなごうとしていろいろハマったのでメモっておく - wyu…
ログをHDFSに集めてHiveでETLや集計を行い集計結果をRDBMSに蓄積してレポーティングツールで可視化するというのは一般的な話だと思います。データの流れでいうと App -> HDFS -> RDBMS -> レポーティングツール という感じです。他にもPrestoのようなlow lat…
hadoop-env.shのHADOOP_JOBTRACKER_OPTSのところに下記を追加してコンカレントGCを有効にしてかつGCログも取りつつ運用していたのだが、JobTrackerでFull GCが連発するということがおこった。 -XX:+UseConcMarkSweepGCGCログはこんな感じ。この後もずっとFul…
fluent-plugin-webhdfs経由でHadoop 1.2.1のHDFSにデータをappendで書き込むということをやっているのだが、最近エラーが出るようになって困っている。再現性は無し。fluentdのログは下記のような感じ。要はある瞬間からHDFSに書き込めなくなってそのままバ…
CROSS 2014の分散処理システムCROSSってのをUSTREAMで聞いてたらHadoopの運用の話が出てたのでその辺の話について書いてみようと思います。ひとくちにHadoopの運用っていっても業務形態(自分達で運用して自分達で使うのか、Treasure Dataのようにお客さんに…
いろいろな部署でデータ分析するようになると「うちのデータとおまえんところのデータを結合して解析したいからデータをくれ、もしくはおれのデータをおたくのクラスタにインポートしてくれ」みたいな話が出るようになります、たぶん。1つのHadoopクラスタに…
http://kzk9.tumblr.com/post/69268410641/2013-hadoop-treasure-dataを見て良いエントリだなと思いつつそういやHadoopのMapReduceの運用ってどうやんのがいいんだろって思って本エントリを書きました。Treasure Dataに限らずある程度の規模のHadoopクラスタ…
ふとログ解析環境についてなんとなく書いてみたくなったので書いてみる。データサイエンティストブームなるものがあると思いますが、データサイエンティストって言ったときに、Hadoop/Hiveあたりを使ってデータをきれいに整理して分析しやすいように加工する…
僕が日頃触っているのは統計用Hadoopクラスタで本番サービス用Hadoopクラスタのことはそんなに分からないんだけど見た範囲で言うと違いがいくつかある。本番サービス用Hadoopクラスタっていうのは例えばTwitterのようなつぶやきサービスだったらつぶやきを保…
ログを1時間毎にためてそれをHadoopで処理するなんていうのはよくあるパターンではないかと思う。例えば時間別のPV, UUを求めたいとかね。その場合20130806-1800, 20130806-1900みたいなHiveパーティションを用意するのではないだろうか。20130806-1800パー…