Hadoop

Hadoopサーバのディスク容量減少アラートが飛んできた!ってときにどう対処するか

Linuxサーバがディスク容量不足になった!何か消さねば!ってなった時にどう対処するか - 元RX-7乗りの適当な日々 Linuxサーバのディスク容量減少アラートが飛んできた!ってときにどう対処するか - たごもりすメモ Cassandraサーバのディスク容量減少アラー…

ShuffleがうまくいかなくてReduceが遅くなる現象

たまに起こる現象でちょっと困っているのがMapReduceのジョブを実行していてShuffleがうまくいかなくてReduceが遅くなる現象というのがある。遅くなっているMapReduceのジョブのログをみるとこんな感じになっていてTaskTrackerからのcopyに失敗しているよう…

オレが今見ているHadoopクラスターに関してぼんやりとした感想を書いてみる

オレが今見ているHadoopクラスターはおもに統計値を取得するためのもので、サービスのフロントにどかんと出ているものではない。イントラネット内のものだし内部の人間しかアクセスしないものなのでミッションクリティカルなものではない。主にHiveを使ってM…

HDD障害時のHadoop datanodeの対応について

ここ最近毎日のようにHDD障害が発生しててお祓いに行った方が良いのかなと思い始めているwyukawaです。こんばんは。HadoopのdatanodeにHDD障害が発生した場合、普通はdecommissionすると思います。ただdecommissionってやたら時間かかるんですよね。まる1日…

HDFSにデータを書き込む際の4つのパラメータ

最近知ったんですがHDFSにデータを書き込む際のパラメータとして以下の4つがあります。 ま、他にもあるんでしょうけど、今回はこの4つを取り上げます。まあ取り上げるというか自分へのメモです。なのである程度前提知識ある人じゃないと読んでも意味不明だと…

BytesWritable#getBytesを使うときの注意点

ちょっとマニアックなネタですが最近遭遇したのでメモっておきます。サンプルコードはこちら byte[] b = new byte[]{1,2}; BytesWritable byteWritable1 = new BytesWritable(); byteWritable1.set(b, 0, b.length); assertThat(byteWritable1.getLength(), …

dfs.datanode.failed.volumes.toleratedとdatanodeのdecommission

HDFSにはdfs.datanode.failed.volumes.toleratedという設定項目があります。defaultは0。 <property> <name>dfs.datanode.failed.volumes.tolerated</name> <value>0</value> <description>The number of volumes that are allowed to fail before a datanode stops offering service. By default any volume fai</description></property>…

ディレクトリがあるのにdoes not existと言われてdatanodeが起動できなかった

hadoopのdatanodeを起動しようとして下記のようなエラーメッセージが出て起動できないことがあった。 INFO org.apache.hadoop.hdfs.server.common.Storage: Cannot access storage directory /data1/hadoop/dfs INFO org.apache.hadoop.hdfs.server.common.S…

Hadoopのバランサー実行中にdfs.datanode.balance.bandwidthPerSecを変える

Hadoopにはバランサーというものがあります。象本10.1.4.4 バランサー参照。Hadoopでは時間の経過とともにDataNode間でのブロックの分散度合いのバランスが悪くなっていきます。これを是正するためのプログラムがバランサーで実態はstart-balancer.shという…

パターンでわかるHadoop MapReduce ビッグデータのデータ処理入門

パターンでわかるHadoop MapReduce ビッグデータのデータ処理入門 (NEXT‐ONE)作者: 三木大知出版社/メーカー: 翔泳社発売日: 2012/08/28メディア: 大型本購入: 1人 クリック: 49回この商品を含むブログ (5件) を見るAmazonのレビューでは著者紹介がひどいと…

HadoopのMapReduceジョブのチューニングに関する資料があったのでめもっとく

Hadoop Summit 2012でClouderaの人が発表した資料を見つけたのではっておく。 Hadoop Summit 2012 | Optimizing MapReduce Job Performance View more PowerPoint from Cloudera, Inc. HadoopのMapReduceジョブのチューニングに関するもので、内容的にはHado…

in-mapper combining

並列分散処理の常識をHadoopファミリから学ぶ (3/3):ビッグデータ処理の常識をJavaで身につける(2) - @ITが興味深かったのでここで紹介されている「in-mapper combining」について書いてみたいと思います。Hadoop MapReduce デザインパターン ―MapReduce…

ログ解析についてつらつらと考えていること

ログ解析についてつらつらと考えていることを書いてみたいと思います。Hadoopを用いたログ解析によってマーケティングを変革し売り上げを向上させようという話はよくあります。この手の話はたいていBtoCで例としてはメールでレコメンドして商品を買ってもら…

hadoopアドベントカレンダー2011 25日目 Hadoopに入門するにあたっての情報源

クレジットカード現金化詐欺【業界人が教える口コミ情報】の12/25を担当するwyukawaです。このブログを書いているのは12/25ですので歴史は改ざんしてません。キリ。今回はHadoopに入門するにあたっての情報源、とりわけ書籍について書いてみたいと思います。…

hadoopアドベントカレンダー2011 23日目 バランサーの実行ユーザ

クレジットカード現金化詐欺【業界人が教える口コミ情報】の12/23を担当するwyukawaです。このブログを書いているのは12/25ですが歴史を改ざんしておおくりします。Hadoopクラスタでデータの分散度合いのバランスをとるためにバランサーを実行することがある…

hadoopアドベントカレンダー2011 11日目 Hadoopのスレーブノードでのメモリ割当

クレジットカード現金化詐欺【業界人が教える口コミ情報】の12/11を担当するwyukawaです。ネタもつきてきたので他人のふんどしで行きますw今日はHadoopのスレーブノードでのメモリ割当について書きます。象本でいうと9章に書いてある話になります。 元ネタは…

hadoopアドベントカレンダー2011 7日目 gzip圧縮

クレジットカード現金化詐欺【業界人が教える口コミ情報】の12/7を担当するwyukawaです。今日はHadoopの圧縮ネタでいきます。圧縮ったっていろいろあるわけですがgzipでいきます。容量節約のためにも圧縮は重要です。象本にも圧縮のことは詳しく書かれていま…

hadoopアドベントカレンダー2011 2日目 小ネタ2つ

クレジットカード現金化詐欺【業界人が教える口コミ情報】, 2日目の12/2を担当する@wyukawaです。今回は最近気がついた小ネタを2つ書きたいと思います。 SSHはHDFS操作やジョブ実行には無関係 NameNodeの謎ファイル なおこれから書くのはHadoop 0.20系の話で…

Hadoopはルイーダの酒場

昨日の深夜に某氏講師による「JavaエンジニアのためのHadoop入門」 の話題がネタになってましたが、僕はJavaエンジニアとしてキャリアを積んできてHadoopに入門しました。キリHadoopはJavaで書かれているのでJavaエンジニアのキャリアのひとつとしていいと思…

Hadoopのトラブルシューティングに関する資料があったのでめもっとく

Hadoop World 2011でClouderaの人が発表した資料を見つけたのではっておく。 Hadoop Troubleshooting 101 - Kate Ting - Cloudera View more presentations from Cloudera, Inc. Clouderaのサポートチームの極意が詰め込まれているようだ。内容的にはHadoop…

hadoop fsコマンドの仕様メモを2つほど

lsとstatでは表示されるタイムスタンプが9時間異なる。 $ hadoop fs -ls /user/hive/warehouse/hoge/ Found 1 items -rw-r--r-- 3 hadoop supergroup 189 2011-10-24 17:45 /user/hive/warehouse/hoge/sequencefile $ hadoop fs -stat /user/hive/warehouse/…

ログ解析飲み会

10/19(水)に都内某所でログ解析飲み会なるものを開催した。ログ解析飲み会なのにログが無いってどういうこと?と某氏に突っ込まれたので酔っぱらいの記憶をたよりに書いてみる。ここには書けないオフレコ話も多々あったように思うが忘れたので書かない。ま…

Hadoopを使うにはアルゴリズムに関するスキルが必要だねえ。。。

というようなことを子象本読んでいて思った。もちろんソフトウェアを開発するにあたってはHadoop関係無くアルゴリズムに関するスキルが必要です。 アルゴリズムの勉強というのは、スポーツで言えば腕立て伏せや走り込みみたいな基礎体力を養うようなもので、…

Hadoop MapReduce デザインパターンの6,7章を読んでみた。

難しいと評判の6章ですが、撃沈しますたw6.1.2ぐらいまではなんとなくわかりました。昔、バイオインフォマティックスやってた頃にEMアルゴリズムでハプロタイプ推定するプログラムの調査とかしたんだけどなー。遠い目。。。6.1.5までに関しては 第4回MapRedu…

Hadoop MapReduce デザインパターンの4章を読んでみた。

4章は転置インデックスの生成をMapReduceでどう実現するかという話。 4.3 転置インデックスの生成:基準となる実装 では素朴な実装が示されています。疑似コードはこんな感じこの場合Reduce側ではメモリ上でのソートが走るのでスケーラビリティに問題があり…

Hadoop MapReduce デザインパターンの5章を読んでみた。

5章はグラフアルゴリズムの内容。並列幅優先検索の疑似コードはこちらJavaでの実装例はこちら参照MapReduce デザインパターン (6) - めもめもちなみにこのアルゴリズムの内容を理解するにはこちらのスライドのp24からp35を見るのがいいです。具体例が出てい…

Hadoop MapReduce デザインパターンの3章まで読んでみた。

Hadoop MapReduce デザインパターン ―MapReduceによる大規模テキストデータ処理作者: Jimmy Lin,Chris Dyer,神林飛志,野村直之,玉川竜司出版社/メーカー: オライリージャパン発売日: 2011/10/01メディア: 大型本購入: 4人 クリック: 254回この商品を含むブロ…

Hadoop Conference Japan 2011 Fallに行ってきた

Hadoop Conference Japan 2011 Fallに行ってきました。Hadoop Conference Japan 2011 Fall Tickets, Mon, Sep 26, 2011 at 10:00 AM | Eventbriteまずはスポンサーのリクルート様、Hadoopユーザー会の皆様、発表者およびスタッフの皆様、ありがとうございま…

HadoopのMapReduceのシャッフル

象本2版の6.4 シャッフルとソートを読んでMapReduceのシャッフルって面白いし興味深いなーと思い、ついでに軽くHadoop 0.20系のソースもあわせて読んでみたのでメモっておく。シャッフルっていうとまずソートのイメージだよね。ていうか僕自身はそうだった。…

HadoopでのMapReduce実行方法

HadoopでのMapReduce実行方法は以下の5つあるだろう。 Javaでごりごり実装 Asakusaつかって実装 Hadoopストリーミングを使って実装 Pig使う Hive使う 僕自身はもっぱらHiveだ。 Asakusaは全然わからないのでここでは触れないが、それ以外は象本読んで何とな…