Hadoop

Hadoopの異端さが面白い

Hadoopはほんとブームです。バブルだと言っていい気がします。各種セミナーはすぐに埋まりますし、実際に聞きに行くと会場は満員です。この分野は日本だとNTTデータが先頭をきったように見えます。 NTTデータ、Hadoopの商用ディストリビューション「CDH3」を…

Hadoop 0.23が近づいてきた

元ネタはHortonworksのこちらのブログ記事 http://www.hortonworks.com/preparing-for-next-release-of-apache-hadoop/0.23用のリリースブランチも作成されましたね。http://svn.apache.org/viewvc/hadoop/common/branches/branch-0.23/スライドはこちら Apa…

次世代MapReduceがtrunkにマージされた

元ネタはこちら http://www.hortonworks.com/nextgen-mapreduce-hits-apache-hadoop-mainline/Twitterのタイムラインがこれでちょっとホットになりましたね。次世代MapReduceが何かってのはこちら http://d.hatena.ne.jp/nokuno/20110216/1297808478 アップ…

Hadoopのソースを読む際の参考資料

毎回探している気がするのでリンクだけめもっとく。 すべてHadoopソースコードリーディングというイベント時の発表資料です。■MapReduce関連 Google スライド - オンラインでプレゼンテーションを作成/編集できる無料サービスです Hadoopソースコードリーデ…

象本第二版の翻訳出たよ

Hadoop 第2版作者: Tom White,玉川竜司,兼田聖士出版社/メーカー: オライリージャパン発売日: 2011/07/23メディア: 大型本購入: 9人 クリック: 182回この商品を含むブログ (24件) を見る第ー版の翻訳、第二版の原書(のepubデータ)を持っている身としては第…

HDFSのファイル書き込み部分のソースを読んでみた Part2

前回はこちら HDFSのファイル書き込み部分のソースを読んでみた - wyukawa’s blogResponseProcessorスレッドをstartする前にnextBlockOutputStreamメソッドを呼び出しデータノードと接続します。 // get new block from namenode. if (blockStream == null) …

HDFSのファイル書き込み部分のソースを読んでみた

対象は0.20.2です。該当ソースはDFSClientの内部クラスのDFSOutputStreamとそのさらに内部クラスのDataStreamerとResponseProcessorです。この辺は象本や徹底入門にも書かれていますが、それを参考に少し読んでみましたのでメモっときます。なお動かしてはい…

HadoopのSequenceFileのフォーマット

Hadoopのワードカウントの例だとテキスト形式の入力ファイルが出てきますが、 Hadoopではそれ以外にもバイナリ形式のKey-Valueレコードを保存するためのフォーマットとしてSequenceFileというのがあります。Hadoopは容量が少ないファイルを大量に扱うのは苦…

CDH3のインストール

至る所に書かれてますがメモっとく。環境はMac10.6.7上のVirtualBox4.0.8上のCentOS5.6にCDH3を擬似分散モードでインストールします。ディスク容量はデフォルトの8Gより大きくした方がよさげ。なぜなら後で気軽に増やせないからw増やすには 可搬性疑似仮想ア…

NTTデータのHadoop報告書を読んでみた

NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮これで話題になっていたのは知っていたけど仕事と関係無かったこともあり今まで読んでなかったんですが、1か月ほど前からHadoop仕事を始めたこともあり読んでみました。ま、現状はNTTデータから仕…

Hadoopエンタープライズソリューションセミナー 〜 Big Dataを経営の力に変える鍵を探る 〜 に行ってきました

NTTデータ:OSSソリューショントップまずはNTTデータ、Clouderaの皆様、貴重な機会を提供していただいてありがとうございました。_m( )m_内容に関する詳細はこちらにもあがってますね。 2011-06-02Togetterはこちら。ハッシュタグが無かったので追いきれ…

ワードカウントのサンプルとHadoopコードリーディング

社内失業もとい社内警備中にHadoopの素振りをしていました。休みたっぷりのGWとか自宅警備中にやればよかったんでしょうが、ヒマならヒマでやらないもんです。はい。忙しくてもやらないですけどw金払って勉強するのは学生までで社会人たるもの金もらって勉強…

Hadoopとデータサイエンティスト

次の仕事がHadoop関連かもしれないということで、素振りというかイメトレはじめました。スライドはこちらがわかりやすいです。 Hadoop入門とクラウド利用まずは下記の書籍2冊を僕はぱらぱら見ています。Hadoop作者: Tom White,玉川竜司,兼田聖士出版社/メー…