Hadoop

Hadoopのworker系nodeでのkernel panic

6月ごろからHadoopのworker系nodeつまりdatanode, nodemanager, presto workerが動いているnodeでkernel panicが多発するようになって困っていてまだ解決はしていないのですが、メモっておきます。ログ分析基盤として使っているHadoopクラスタで深夜帯にバッ…

Strata Data Conference in Londonで発表してきた

abstractやスライドは下記からたどれます。https://conferences.oreilly.com/strata/strata-eu/public/schedule/detail/65222一度はrejectされたCFPが2週間前になってacceptになったので慌てて準備して発表してきました。20人ぐらいは来てくれたかな。発表直…

Strata Data Conference in Singaporeで発表してきた

abstractやスライドは下記からたどれます。 https://conferences.oreilly.com/strata/strata-sg/public/schedule/detail/629482014年5月に異動してから新規に構築したHadoopクラスタの3年にわたる歴史を紹介しております。Hadoopに初めて触ったのが6年前にSI…

Hadoopでトラフィックが多いと言われたのでtcpdump使って調べてみた

8:20から9時ぐらいまで断続的にoutboundトラフィックが増えてなんでだろって思ったのでtcpdumpしてみた。やり方は下記参照 定期的にtcpdumpをある期間だけ実行したいという時 - その手の平は尻もつかめるさHadoopのdatanodeマシンを一つ使って以下のようにcr…

Hadoopソースコードリーディング 第22回で発表してきました

Hadoopソースコードリーディング 第22回 Tickets, Fri, Mar 3, 2017 at 6:45 PM | Eventbrite 関係者の皆様おつかれさまでした。ありがとうございました。スライドはこちら Upgrading from-hdp-21-to-hdp-25 from wyukawa Hadoopアップグレードの話をしまし…

こんなHadoop本が読みたい

wyukawa's tumblr, descicoさんとHadoopについて話しました Guest descico Show...でも少し話したけど、日本語で読めるHadoop本が古くなっていて今だとちょっと勉強しづらい状況です。なので、僕だったら、下記のような目次の「はじめてのHadoop」を読みたい…

HDP2.1からHDP2.5.3へアップグレードした

約1年前に別のHadoopクラスタをHDP2.1からHDP2.4にアップグレードした話はHadoopソースコードリーディング 第20回で発表しました。Hadoopソースコードリーディング 第20回で発表してきました - wyukawa’s blogこのクラスタはデータソースがFluentdからのほぼ…

haveged入れたらOracle DBに対するsqoop importでConnection resetが出なくなった

Oracle DBに対してsqoop importするときに下記のようにurandomを使うのは割と一般的な話かなと思います。 sqoop import -D mapreduce.map.java.opts="-Djava.security.egd=file:/dev/../dev/urandom" ...sqoopのマニュアルにも書いてありますね。 https://sq…

Hadoop Summit Tokyo 2016に行ってきた

http://hadoopsummit.org/tokyoチケット代が約4万円で高いと噂になったHadoop Summit Tokyo 2016に行ってきました。ただ海外ではこのぐらいの値段は普通らしく、むしろ日本が異常に安すぎるという。 そのしわ寄せがイベント運営者にいってしまっているのが現…

レポーティング、モニタリング、監視で使うストレージは何が良いんだろう

題記のようなことを考えていて、レポーティング、モニタリング、監視で使うストレージは全部統一されているほうが当然運用が楽だと思うのですが、現状だと統一できなくて用途ごとに分けてHadoop, Prometheus, Elasticsearchに格納するというのが僕の今のとこ…

Hadoopソースコードリーディング 第20回で発表してきました

Hadoopソースコードリーディング 第20回 Tickets, Thu, Mar 24, 2016 at 7:00 PM | Eventbrite関係者の皆様おつかれさまでした。ありがとうございました。スライドはこちら Upgrading from-hdp-21-to-hdp-24 from wyukawa HDP2.1からHDP2.3.4へblue green de…

HDP2.1からHDP2.4にupgradeした話

2種類のログ解析基盤 - wyukawa’s blogで書いた1つ目のエンジニアよりの解析基盤をHDP2.1からHDP2.4にupgradeしました。upgradeがちゃんと終わったのは昨日なのでまだ何かあるかもしれませんが、メモがてら書いておきます。upgradeのやり方はblue green depl…

net.ipv4.tcp_tw_recycle = 1したらTIME_WAITが減った話

Hadoop環境だとOSのカーネルパラメータをいじることは一般的です。僕の環境だとだいたいのパラーメータはすでに設定済みでマシンがくるわけなんですが、 netstat -anp | grep TIME_WAIT | wc -lしたらTIME_WAIT数がやたら多くて気になってました。ちなみflue…

プランナーよりのログ解析基盤のその後

以前2種類のログ解析基盤 - wyukawa’s blogで書いたログ解析基盤のうち2つ目のプランナーよりのシステムが現在どうなっているかを書いてみたいと思います。 ちなみに1つ目のエンジニアよりのシステムの方も更新はあって、Fluentd+Norikra+Elasticsearch+Kiba…

2種類のログ解析基盤

僕は仕事では2種類のログ解析基盤を見ています。1つ目はどちらかというとエンジニアよりの解析基盤でサービス側のエンジニアがShib, ShibUIを通して好きにクエリを投げることができます。ただしtableをcreateしたりdropしたりinsertしたりはできません。sele…

現在のログ解析基盤

1月のPresto Meetupでログ解析基盤について少し話してから3ヶ月弱経ったんだけどその時から若干変わったのでメモっておく。以前はこんな感じでした。 Presto in my_use_case from wyukawa Prestoは今は0.100を使っていて特に問題は発生してないです。 Cognos…

Treasure Data Tech Talkに行ってきた

先週のことだけどTreasure Data Tech Talkに行ってきました。主催者のTreasure Dataさん、会場を提供をしてくださったDeNAさん、またイベント開催にご協力頂いたdots.さん、ありがとうございます。寿司おいしかったです。セッションの内容は Treasure Data T…

Hortonworksのイベントに行ってきた

Hadoop and the Modern Data Architecture に行ってきました。立派なホテルで良いイベントでした。ありがとうございました。> Hortonworksのみなさまセッションや会場にいた人との会話について少し書きます。まず僕が使っているAmbariに関して発表がありま…

sqoopでOutOfMemoryError

HDP2.1環境でMySQLに対してsqoop importしたら以下のようなOutOfMemoryErrorが出た。 2014-07-29 15:58:15,994 FATAL [main] org.apache.hadoop.mapred.YarnChild: Error running child : java.lang.OutOfMemoryError: GC overhead limit exceeded at com.my…

Hadoop Conference Japan 2014にいってきた

Hadoop Conference Japan 2014 Tickets, Tue, Jul 8, 2014 at 10:00 AM | Eventbrite第5回になるそうです。僕は3回目から参加していますが、毎度のことながらランチが出るし至れり尽くせりのカンファレンスですね。スタッフの皆様ありがとうございます。m( …

ログ分析環境を少しづつ作ってる

まだ本格的な運用は始まっていないけどログ分析環境を少しづつ作ってるのでメモっておく。ETL処理は既存資産の活用を考慮してPython 2.7でやっています。hiveserver2との接続はpythonからhiveserver2につなごうとしていろいろハマったのでメモっておく - wyu…

データ分析環境について書いてみる

ログをHDFSに集めてHiveでETLや集計を行い集計結果をRDBMSに蓄積してレポーティングツールで可視化するというのは一般的な話だと思います。データの流れでいうと App -> HDFS -> RDBMS -> レポーティングツール という感じです。他にもPrestoのようなlow lat…

JobTrackerでFull GC

hadoop-env.shのHADOOP_JOBTRACKER_OPTSのところに下記を追加してコンカレントGCを有効にしてかつGCログも取りつつ運用していたのだが、JobTrackerでFull GCが連発するということがおこった。 -XX:+UseConcMarkSweepGCGCログはこんな感じ。この後もずっとFul…

Fluentd+WebHDFSでappend書き込みしてて遭遇したエラー

fluent-plugin-webhdfs経由でHadoop 1.2.1のHDFSにデータをappendで書き込むということをやっているのだが、最近エラーが出るようになって困っている。再現性は無し。fluentdのログは下記のような感じ。要はある瞬間からHDFSに書き込めなくなってそのままバ…

Hadoopの運用について書いてみる

CROSS 2014の分散処理システムCROSSってのをUSTREAMで聞いてたらHadoopの運用の話が出てたのでその辺の話について書いてみようと思います。ひとくちにHadoopの運用っていっても業務形態(自分達で運用して自分達で使うのか、Treasure Dataのようにお客さんに…

Hiveで大きめの結果ファイルをエクスポートして相手に渡す話

いろいろな部署でデータ分析するようになると「うちのデータとおまえんところのデータを結合して解析したいからデータをくれ、もしくはおれのデータをおたくのクラスタにインポートしてくれ」みたいな話が出るようになります、たぶん。1つのHadoopクラスタに…

HadoopのMapReduceの運用

http://kzk9.tumblr.com/post/69268410641/2013-hadoop-treasure-dataを見て良いエントリだなと思いつつそういやHadoopのMapReduceの運用ってどうやんのがいいんだろって思って本エントリを書きました。Treasure Dataに限らずある程度の規模のHadoopクラスタ…

ログ解析環境についてなんとなく書いてみる

ふとログ解析環境についてなんとなく書いてみたくなったので書いてみる。データサイエンティストブームなるものがあると思いますが、データサイエンティストって言ったときに、Hadoop/Hiveあたりを使ってデータをきれいに整理して分析しやすいように加工する…

本番サービス用Hadoopクラスタと統計用Hadoopクラスタの違い

僕が日頃触っているのは統計用Hadoopクラスタで本番サービス用Hadoopクラスタのことはそんなに分からないんだけど見た範囲で言うと違いがいくつかある。本番サービス用Hadoopクラスタっていうのは例えばTwitterのようなつぶやきサービスだったらつぶやきを保…

Hadoopを使ったログ解析システムにおける時間別のジョブ、パーティションについてつらつらと書いてみる。

ログを1時間毎にためてそれをHadoopで処理するなんていうのはよくあるパターンではないかと思う。例えば時間別のPV, UUを求めたいとかね。その場合20130806-1800, 20130806-1900みたいなHiveパーティションを用意するのではないだろうか。20130806-1800パー…