2012-01-01から1年間の記事一覧

HBaseのJuliet Pauseとリージョン復旧について

HBaseにはJuliet Pauseというよく知られた障害のシナリオがあります。 The HBase development team has affectionately dubbed this scenario a Juliet Pause ― the master (Romeo) presumes the region server (Juliet) is dead when it’s really just slee…

2012振り返り

etc

今日が今年の仕事納めでした。定点観測的な意味合いで1年を簡単に振り返ってみたいと思います。 今年も去年に引き続きHadoopにどっぷりな1年でしたね。あとは11月に転職したのが大きなトピックですね。 特に体調を崩すこと無く過ごせたのは良かったです。フ…

HBaseのバルクロードというかHFile生成方法

HBaseにデータをロードする場合はバルクロードを使うのが性能的には良いと思います。HTable#putだとWALをオフにしても遅いんですよね。バルクロードに関しては馬本の12.2.3を読むと良いと思います。バルクロードを使うためにはHBase用のデータファイル、HFil…

入力データの性質によってはOutOfMemoryになってしまうHBaseへのデータ投入用のReduceタスクをどうすべきか?

今週ずっと考えているんだけど今のところの結論としてはデータを捨てるしかないかなと思ってる。 ちょっと整理されていない、というかオレの頭が混乱している感がありありだけどラフなメモ書き。例をあげるとこんな感じのユーザの行動ログがHDFSにあるとしま…

マタのブログを訳してみた

クラブワールドカップのため来日しているチェルシーのマタのブログの内容が面白かったのでGoogle翻訳を駆使して超訳してみました。原文はこちら http://blogs.grada360.com/juanmata/en/2012/12/10/un-nuevo-pais-un-nuevo-desafio/どうでもいいけどこのブロ…

HBaseについての情報源

クレジットカード現金化詐欺【業界人が教える口コミ情報】 の12/2分として書きます。内容は薄いというかHBaseの情報源についてのまとめエントリです。■本家 Top http://hbase.apache.org/ JIRA https://issues.apache.org/jira/browse/HBASE Subversion http…

HBaseのテーブルがenableでもなくdisableでもなくなった場合の対応方法

どうもこんばんはwyukawaです。最近HBaseのテーブルがenableでもなくdisableでもなくまたdropもできないという状態になり、詰んだアカウントがこちらになります。再現性はたぶん無くて該当のJIRAはたぶんこれ。未解決ですね、はい。 https://issues.apache.o…

入社しました

いろんなサービスを展開しているいわゆるWeb系企業に入社しました。 今日が初出社でした。初日はいろんなオリエンテーションを受けて過ごし夕方に自席に行ってマシンのセットアップを始めたぐらいです。私服でいいので逆にファッションに気を使いますね(嘘…

転職します

いつか、近い将来、こういうエントリを書くことになるだろうと思っていたのですがその日がきました。今日、10/31をもって現職を退職します。11/1から新しいところで働きます。 初めての転職です。年齢的にもプログラマの定年というか村上春樹のプールサイド…

SQL, PigのCUBE

SQLで小計や総合計を求める時にGROUP BYを利用することが多いと思いますがいろんな軸で集計したい場合にROLLUP, CUBE, GROUPING SETSを使うことができるようです。詳しくはこちら参照 http://homepage2.nifty.com/sak/w_sak3/doc/sysbrd/sq_kj04_4.htmROLLUP…

SQLとRedisでのランキングの扱い方

今日はランキングの話を書いてみたいと思います。サンプルデータは以下です。プレミアリーグの昨シーズン(2011-12シーズン)の得点データの一部です。 name score Kun Agüero 23 Mario Balotelli 13 Edin Džeko 14 Wayne Rooney 27 Robin van Persie 30 Emm…

SQL, Pig, HiveそれぞれのEXISTS

仕事でSQLのEXISTSを書いたことがないwyukawaです。こんばんわ。今日は以下の本を元ネタにEXISTSの話をしようと思います。SQL, Pig, Hiveだとどうなるかもあわせて書きたいと思います。達人に学ぶ SQL徹底指南書 (CodeZine BOOKS)作者: ミック出版社/メーカ…

やったことない仕事をうまくやるための抽象化スキル

抽象化スキルが、生死を分ける時代に : NED-WLTを読んでなんとなく書いてみる自分が過去にやったことある仕事と同じような仕事をアサインされた場合には対応するのが簡単でしょうが当然のことながら世の中そういう仕事ばかりではないわけです。自分がやった…

Pigのin-mapper combining

Pig

以前in-mapper combiningについて書きました。 in-mapper combining - wyukawa’s blogこれはmapper内でなるべく集約してしshuffleフェーズの負荷を下げようというものです。Hiveの場合はhive.map.aggrプロパティでこの機能のオン/オフを制御します。デフォル…

Pigの情報源

Pig

とりあえずめもっとく■本家Welcome to Apache Pig!Ver 0.9.2からドキュメントの量が増えているのでこれを読めば事足りるかも。■書籍Hadoop徹底入門作者: 太田一樹,下垣徹,山下真一,猿田浩輔,藤井達朗,濱野賢一朗出版社/メーカー: 翔泳社発売日: 2011/01/28メ…

PigのNested Block

Pig

Hiveと比べるとややマイナー感が漂うPigですが試してみると、「おお、これはちとHiveだとやりづらいけどPigだと楽かもなー」というのがあります。Nested Blockはその代表な気がするので書いてみます。今回は単純なアクセスログ解析を例とします。入力データ…

パターンでわかるHadoop MapReduce ビッグデータのデータ処理入門

パターンでわかるHadoop MapReduce ビッグデータのデータ処理入門 (NEXT‐ONE)作者: 三木大知出版社/メーカー: 翔泳社発売日: 2012/08/28メディア: 大型本購入: 1人 クリック: 49回この商品を含むブログ (5件) を見るAmazonのレビューでは著者紹介がひどいと…

プレミアリーグ2012-13シーズンがはじまる

ロンドンオリンピックでの男女サッカーの活躍ぶりの記憶も新しい今日この頃ですが、明日からいよいよプレミアリーグ2012-13シーズンがはじまるので楽しみです。いや、なんつうかEURO2012とロンドンオリンピックがあったからまだよかったけどそれすらなかった…

プログラマに質問して聞いてみたいこと

プログラマの採用面接でFizz Buzz解いてもらうのもいいかもしれないが、個人的にはそういう正解があるものよりかは正解がなくその人の個人的な経験、知識、考え方などをしゃべってもらうような質問が良いと思っている。というか僕が面接官ならしてみたいかな…

プログラマを面接する際に出すコードの問題について

Fizz Buzzは解けてもAntsは解けないwyukawaです。こんにちは。Antsというのはこういう問題です。 長さLcmの竿の上をn匹のアリが毎秒1cmのスピードで歩いています。アリが竿の端に到達すると竿の下に落ちていきます。また、竿の上は狭くてすれ違えないので、…

HBaseのデータ書き込みフロー

馬本をつらつら読んだのでデータ書き込みのあたりについてメモがてら書いてみる。HBaseはLog-Structured Merge-tree (LSM-tree)という技術を使ってデータの読み書きを行います。LSM-treeはMemtable, SS Table, Commit Logという3つの記憶領域を使います。Me…

HBase in Actionの4章に書かれているRow Keyの話

昨日のエントリでも少し触れましたが、HBase in Actionの4章ではTwitterのようなつぶやきサービスを作るときのRow Keyの設計について考察がされています。今回はそれについて少し書いてみます。つぶやきするユーザはuseridを持つものとします。 ユーザAのuse…

HBaseのRow Keyの設計についてのメモ

Facebook Messageで使われたり、LINEのストレージで使われたり、と事例も多く出てきているHBase(Bは大文字。これ重要)ですが、個人的に少し興味も湧いてきたのでちょっと調べてます。HBaseはLog-Structured Merge-tree (LSM-tree)というアーキテクチャを使…

ブログについて語るときに我々の語ること

etc

タイトルはもちろんレイモンド・カーヴァーの「愛について語るときに我々の語ること(What We Talk about When We Talk about Love.)」から取ってます。僕は2008年からはてなでブログを書き続けているのでかれこれもう4年になります。以前に比べれば更新頻度…

自分の手を動かし自分の頭で考えるということ

etc

仕事の関係で自分が今までやったことがないことをやることになってしかもそれが新しめのことだったりすると新鮮で面白いわけですね。 で、自分なりにその技術をいろいろ調べたりしているうちにその界隈で著名な人が誰だかわかってきてTwitterでフォローした…

HadoopのMapReduceジョブのチューニングに関する資料があったのでめもっとく

Hadoop Summit 2012でClouderaの人が発表した資料を見つけたのではっておく。 Hadoop Summit 2012 | Optimizing MapReduce Job Performance View more PowerPoint from Cloudera, Inc. HadoopのMapReduceジョブのチューニングに関するもので、内容的にはHado…

常駐作業から考えるキャリアの築き方

随分と昔の話だけれども、当時僕が客先に常駐していて、 自社で作業しているといろいろと雑用(飲み会の幹事とかPCが紛失してないかチェックするための資産の棚卸しとか)が多いので客先に常駐しているほうが仕事に集中できていいよね みたいに思っていたと…

僕はこんなふうにスライドを作ってきた

etc

僕はこんなふうにプレゼンしてきた - wyukawa’s blog ではスライドの作り方に関してはあまり書いていなかったので今回はそれについて書いてみたいと思います。元ネタのはてなブックマークコメントにもありましたが、スライドの下部には何も書かないほうがい…

僕はこんなふうにプレゼンしてきた

etc

ありがたいことにこの2年で8回ほど勉強会でプレゼンさせていただきました。そこで今回僕がどのようにスライドを準備し発表してきたのかを振り返って書いてみたいと思います。 本エントリを読んだ人の参考になれば幸いですが、僕自身のプレゼンスキルは高く…

Hadoopソースコードリーディング 第9回で発表してきました

Hadoopソースコードリーディング 第9回 Tickets, Wed, May 30, 2012 at 7:00 PM | EventbriteHiveの勉強会をやらない?っていう話があって、最初は小規模でカジュアルな感じだろうなあと思ってました。Hive Casual Talkみたいな感じ。でも気づけばモヒカンが…