2013-01-01から1ヶ月間の記事一覧

HBaseのデータ書き込みフロー Part 2

以前HBaseのデータ書き込みフローについて下記ブログを書きました。 HBaseのデータ書き込みフロー - wyukawa’s blogどういう内容かというとHBaseでデータの書き込みを行う場合は、メモリ上のMemStoreに書き込むとともにディスク上のHLogにも書いて耐障害性を…

Hive 0.10でROLLUP, CUBE, GROUPING SETSが入ったよ

最近Hiveをいじることはめっきりなくなりましたが1/11にHive 0.10がリリースされましたね。前の0.9が2012/4/30リリースだったことを考えると約8ヶ月ぶりのリリースですね。ちなみに僕がHiveを一番触っていた頃のバージョンは0.6だったりします。てへ。それに…

HBaseのコンパクション周りのソースを読んでいたのでメモ

HBaseのコンパクション周りのソースを読んでいたのでメモっておく。馬本の8.2.3.5 コンパクションと下記togetterも参考HBaseのコンパクションまわりを調べてみた件。 - Togetter僕が読んだソースのHBaseのバージョンは0.94.2と新しいですが上記馬本とtogette…

HBaseクライアントを作る際のページング処理について

HBaseにデータをいっぱい突っ込んでHBaseクライアント作ってさーがりがり検索するぞーっていう場合に注意する点があります。row keyで検索するとして単純に考えるとGetオブジェクを作って以下のように検索するでしょう。 Get get = new Get(rowkey); get.add…

Hadoopのバランサー実行中にdfs.datanode.balance.bandwidthPerSecを変える

Hadoopにはバランサーというものがあります。象本10.1.4.4 バランサー参照。Hadoopでは時間の経過とともにDataNode間でのブロックの分散度合いのバランスが悪くなっていきます。これを是正するためのプログラムがバランサーで実態はstart-balancer.shという…

Garbage Collectionについてちょっと調べてみた

HBaseのJuliet PauseをきっかけにしてGarbage Collection(以下GC)についてちょっと調べてみました。そういえば長年Javaでお仕事している割にはGCのこと全然知らなかった(汗GCというのは不要になったメモリを回収することをいいますがそのアルゴリズムにはい…

昨日のウィガンvsユナイテッドの試合に関するテレグラフのヘンリー・ウィンターによるマッチレポートを訳してみた

あけましておめでとうございます。今年もよろしくお願いします。 新年一発目のエントリとしてプレミアリーグねたを書いてみたいと思います。昨日のウィガンvsユナイテッドの試合に関するテレグラフのヘンリー・ウィンターによるマッチレポートがちょっと面白…