2013-01-01から1年間の記事一覧

オレが今見ているHadoopクラスターに関してぼんやりとした感想を書いてみる

オレが今見ているHadoopクラスターはおもに統計値を取得するためのもので、サービスのフロントにどかんと出ているものではない。イントラネット内のものだし内部の人間しかアクセスしないものなのでミッションクリティカルなものではない。主にHiveを使ってM…

プレミアリーグ2012-13シーズンが終わった

2011-12シーズンと比べるとマンチェスター・ユナイテッドがあっさりと優勝を決めてしまってやや盛り上がりに欠けていた面はあるものの今シーズンも興味深く見ていた。シーズン序盤はチェルシーの調子が良く、マタ、アザール、オスカルといった2列目が躍動し…

HDD障害時のHadoop datanodeの対応について

ここ最近毎日のようにHDD障害が発生しててお祓いに行った方が良いのかなと思い始めているwyukawaです。こんばんは。HadoopのdatanodeにHDD障害が発生した場合、普通はdecommissionすると思います。ただdecommissionってやたら時間かかるんですよね。まる1日…

sl 5.0の-cオプション

etc

TwitterでslがGitHubにアップされた旨の情報が流れてきたのでいろいろいじったメモ。ちなみに本家?でもアナウンスしてますね。 2013年05月05日(日) ソースコードをgithubに置きました。こっそりバージョンアップもしています。 豊田正史とslコマンド (Masas…

初めてのgem作成

僕はJavaメインでずっと仕事してきたこともありRubyはほとんど書けないし、仕事でRubyのコードを書く機会も今のところ少ないです。ただRubyで実装されたアプリ(例:fluentd)を使うことはあるしchef, vagrantなど興味あるアプリはRubyベースなことも多いの…

なるほどUnixプロセス ― Rubyで学ぶUnixの基礎

なるほどUnixプロセス ― Rubyで学ぶUnixの基礎【電子書籍】Jesse Storimer, 島田浩二(翻訳), 角谷信太郎(翻訳)達人出版会発行日: 2013-04-25対応フォーマット: EPUB, PDF, ZIP詳細を見るまだβ版ですが、面白そうだったので買ってみました。初代iPadのiBooks…

HDFSにデータを書き込む際の4つのパラメータ

最近知ったんですがHDFSにデータを書き込む際のパラメータとして以下の4つがあります。 ま、他にもあるんでしょうけど、今回はこの4つを取り上げます。まあ取り上げるというか自分へのメモです。なのである程度前提知識ある人じゃないと読んでも意味不明だと…

BytesWritable#getBytesを使うときの注意点

ちょっとマニアックなネタですが最近遭遇したのでメモっておきます。サンプルコードはこちら byte[] b = new byte[]{1,2}; BytesWritable byteWritable1 = new BytesWritable(); byteWritable1.set(b, 0, b.length); assertThat(byteWritable1.getLength(), …

色彩を持たない多崎つくると、彼の巡礼の年

色彩を持たない多崎つくると、彼の巡礼の年作者: 村上春樹出版社/メーカー: 文藝春秋発売日: 2013/04/12メディア: ハードカバー クリック: 3,074回この商品を含むブログ (334件) を見る小説が発売されてすぐに買いにいく作家というのは僕にとっては村上春樹…

100万ページビュー

etc

気づいたら100万ページビューになっていました。ブログを書き始めて5年での達成です。このページビューはリロードしてもカウントアップされる仕様のようです。まあページビューってそういうもんですよね。ずっと無料のはてなダイアリーで書き続けていたんで…

Kindleで購入して面白かったマンガ

Kindle Fire HDを買ってさあマンガ読むぞーって思っても普段ほとんどマンガ読まないし、今からONE PIECEとか読むと60巻以上あるしでもっと気軽に読みたいわけですね。てもまあ今何が面白いのかよくわからんわけですが何冊か買ってみて面白かったものを紹介し…

新しいiMacにインストールしたものおよび設定

mac

なんか毎回忘れている気がするのでメモ インストールしたもの XCode Command Line Tools Chrome Adblock Plus Gmelius はてなブックマーク GoogleChrome拡張 FireFox Alfred Eclipse 3.7 subclipse egit Homebrew SourceTree Sublime Text CotEditor iTerm2 …

Redisでのbulk処理

Redisと仲良くなりたいです!って隣の人に言ったら、「障害に遭遇すると良いよ。それも深刻なやつにね。軽いやつだと軽い関係にしかなれないから」って言われたwyukawaです。こんばんは。軽い関係じゃなくてもうちょっと踏み込んだ関係になりたいと思ってま…

とりあえずStormをローカルモードで動かしてみた。

身近なところでStormがちょっとブームなので話題についていくためにも軽く素振りしたいと思います。日本語の資料でざっくり中身をつかむには下記がいいんじゃないでしょうか。 Twitterのリアルタイム分散処理システム「Storm」入門 from AdvancedTechNight S…

バルクロードでHBaseにインポートしたデータをHiveの外部テーブルでselectするときに遭遇した現象に関するメモ

タイトル長い。。。ちゃんと整理できてないですがとりあえずメモっときます。環境はHBase 0.94.4, Hive 0.10.0です。LoadIncrementalHFilesを使ってHBaseにデータをインポートしようとしたら下記のようなエラーが出ました。 Caused by: java.lang.IllegalSta…

HBaseのデータをHiveからselectする

参考にしたのはこの辺本家Wiki https://cwiki.apache.org/confluence/display/Hive/HBaseIntegrationHortonworksのスライド資料 Integration of Hive and HBase from Hortonworks 最初はHiveでselect insertしてHBaseにデータロードする方法を試していたけど…

dfs.datanode.failed.volumes.toleratedとdatanodeのdecommission

HDFSにはdfs.datanode.failed.volumes.toleratedという設定項目があります。defaultは0。 <property> <name>dfs.datanode.failed.volumes.tolerated</name> <value>0</value> <description>The number of volumes that are allowed to fail before a datanode stops offering service. By default any volume fai</description></property>…

JIRAのCLI

python製だとこんなのがあります。 http://tdoc.info/blog/2012/12/22/jira_cli.html Node.js製だとこんなの http://tebriel.github.com/jira-cli/ただ僕の環境(Mac 10.8.2)だと以下のようなエラーになりました。 $ jira -f HBASE-5533 TypeError: Cannot re…

ディレクトリがあるのにdoes not existと言われてdatanodeが起動できなかった

hadoopのdatanodeを起動しようとして下記のようなエラーメッセージが出て起動できないことがあった。 INFO org.apache.hadoop.hdfs.server.common.Storage: Cannot access storage directory /data1/hadoop/dfs INFO org.apache.hadoop.hdfs.server.common.S…

HBase 0.94になってメトリクスがいっぱい追加されたらしい

該当のJIRAは下記です。 https://issues.apache.org/jira/browse/HBASE-5533JMXを使ってHBaseをモニタリングするということは一般的に行われていると思います。 馬本でも10.4 JMXのところに記述があります。hbase-env.shを修正してjmxのportを開けてそこにア…

初めての韓国

人生2回目の海外旅行は韓国の盆唐でした。羽田空港から金浦空港までは2時間ちょっと。 8:55の飛行機に乗って10時ごろに機内食が出ました。 カツとごはんとそばとお菓子でした。お菓子以外は食いました。6時起きだったので腹は割とすいてました。入国審査で指…

fluentdの複数実行

最近fluentdを触り始めたwyukawaです。こんにちは。今回は最近やったことについて書いてみたいと思います。まあ正確にいうと僕がやったというよりほとんど別の人がやったわけですが忘れないうちにメモっておきます。もともとやっていたことはfluent-plugin-w…

Mac 10.8にrbenv+ruby-buildでRuby 1.9系にしてfluentdをインストールして試してみる

最近fluentdに触れる機会ができましたので備忘録としてブログに書いてみたいと思います。fluentdタグでブログを書くのは↓以来1年振り2回目になります。 fluentdを試してみた - wyukawa’s blogまずは環境構築です。fluentdはRuby 1.9系が前提なのですがMacに…

入社して3か月経った

早いもので気づけば入社して3か月経ちました。この3ヶ月で感じたことをつらつらと書いていきたいと思います。なお前職との比較をするつもりはないですがあえて共通点をあげると(僕を含めて)朝弱い人が多いということでしょうかw僕のいるところはHadoop, J…

HBaseのデータ書き込みフロー Part 2

以前HBaseのデータ書き込みフローについて下記ブログを書きました。 HBaseのデータ書き込みフロー - wyukawa’s blogどういう内容かというとHBaseでデータの書き込みを行う場合は、メモリ上のMemStoreに書き込むとともにディスク上のHLogにも書いて耐障害性を…

Hive 0.10でROLLUP, CUBE, GROUPING SETSが入ったよ

最近Hiveをいじることはめっきりなくなりましたが1/11にHive 0.10がリリースされましたね。前の0.9が2012/4/30リリースだったことを考えると約8ヶ月ぶりのリリースですね。ちなみに僕がHiveを一番触っていた頃のバージョンは0.6だったりします。てへ。それに…

HBaseのコンパクション周りのソースを読んでいたのでメモ

HBaseのコンパクション周りのソースを読んでいたのでメモっておく。馬本の8.2.3.5 コンパクションと下記togetterも参考HBaseのコンパクションまわりを調べてみた件。 - Togetter僕が読んだソースのHBaseのバージョンは0.94.2と新しいですが上記馬本とtogette…

HBaseクライアントを作る際のページング処理について

HBaseにデータをいっぱい突っ込んでHBaseクライアント作ってさーがりがり検索するぞーっていう場合に注意する点があります。row keyで検索するとして単純に考えるとGetオブジェクを作って以下のように検索するでしょう。 Get get = new Get(rowkey); get.add…

Hadoopのバランサー実行中にdfs.datanode.balance.bandwidthPerSecを変える

Hadoopにはバランサーというものがあります。象本10.1.4.4 バランサー参照。Hadoopでは時間の経過とともにDataNode間でのブロックの分散度合いのバランスが悪くなっていきます。これを是正するためのプログラムがバランサーで実態はstart-balancer.shという…

Garbage Collectionについてちょっと調べてみた

HBaseのJuliet PauseをきっかけにしてGarbage Collection(以下GC)についてちょっと調べてみました。そういえば長年Javaでお仕事している割にはGCのこと全然知らなかった(汗GCというのは不要になったメモリを回収することをいいますがそのアルゴリズムにはい…