2011-07-01から1ヶ月間の記事一覧

サッカー見に行ってきた

etc

今回はなでしこです。日テレ・ベレーザ vs 伊賀フットボールクラブくノ一 の試合を平塚競技場まで見に行ってきましたベルマーレ平塚の試合とは異なり、無料、メインスタンドのみ解放、平塚駅からシャトルバス無し、でした。人は結構入ってましたね。3750人入…

Hiveメモ

HiveのTipsかもしれないものを2つ知ったのでいちおうメモっとく。何でこうなるかはわかってない。バージョンは0.6ね。まず1つめaaaとbbbという2つのテーブルがあって、それぞれcolumn1というパーティションキーがあって、 このキーで結合しつつcolumn1が1…

象本第二版の翻訳出たよ

Hadoop 第2版作者: Tom White,玉川竜司,兼田聖士出版社/メーカー: オライリージャパン発売日: 2011/07/23メディア: 大型本購入: 9人 クリック: 182回この商品を含むブログ (24件) を見る第ー版の翻訳、第二版の原書(のepubデータ)を持っている身としては第…

Hiveについての情報源

とりあえずめもっとく■本家 Top Apache Hive TM Wiki Home - Apache Hive - Apache Software Foundation JIRA - ASF JIRA リポジトリ Subversion http://svn.apache.org/repos/asf/hive/trunk Git git://git.apache.org/hive.git http://github.com/apache/h…

Hiveのソースを解説した良い資料をslideshareで見つけたよ

以前Hiveのソースを読んだ旨を Hiveのソースを見てみた。 - wyukawa’s blog に少し書きましたが、slideshareで良い資料を見つけたのではっときます。 Hive Anatomy View more presentations from nzhang Design - Apache Hive - Apache Software Foundation …

HDFSのファイル書き込み部分のソースを読んでみた Part2

前回はこちら HDFSのファイル書き込み部分のソースを読んでみた - wyukawa’s blogResponseProcessorスレッドをstartする前にnextBlockOutputStreamメソッドを呼び出しデータノードと接続します。 // get new block from namenode. if (blockStream == null) …

Hiveでの空文字、NULLの扱い

ちょっと混乱したけど、どうもこういうことっぽい。 カラムの型 テーブルにロードするファイルでの値 HDFS上の値 selectした場合の表示 IS NULL判定結果 int 空文字でない文字列 空文字でない文字列 NULL true int 空文字 空文字 NULL true string NULLとい…

Hiveを動作させる場合の環境の切り替え方法

Hiveでテストする場合の話ですが、データ量が少ないならVirtualBox上のLinuxにCDHを擬似分散で入れてHiveを動かしてテストすればいいと思います。ただある程度のデータ量がないとテストにならないという場合もあるでしょう。本番環境で試行錯誤したいという…

HDFSのファイル書き込み部分のソースを読んでみた

対象は0.20.2です。該当ソースはDFSClientの内部クラスのDFSOutputStreamとそのさらに内部クラスのDataStreamerとResponseProcessorです。この辺は象本や徹底入門にも書かれていますが、それを参考に少し読んでみましたのでメモっときます。なお動かしてはい…

シェルスクリプトのテスト

以前シェルスクリプトのテストについて少し書きました。シェルスクリプトの開発環境 - wyukawa’s blog最近実際にテストを始めたのでどうやっているかを書いてみたいと思います。やりたいことはHiveQLをキックするシェルスクリプトのテストです。ブラックボッ…

Hiveのソースを見てみた。

対象はCloudera版の0.7どこがエントリポイントかっていう話がまずあるわけだが、hiveコマンドをたたくとこうなりますよね。 $ hive Hive history file=/tmp/wyukawa/hive_job_log_wyukawa_201107032314_538554893.txt >hiveコマンドの実態である$HIVE_HOME/b…

HiveのSequenceFileとかパーティションとか

Hiveに関するまとまった情報源として書籍なら徹底入門があります。とはいえそんなに突っ込んだことは書かれていないので、本家のWikiを参照することになると思います。https://cwiki.apache.org/confluence/display/Hive/Home最近Confluenceに変わりましたね…

HadoopのSequenceFileのフォーマット

Hadoopのワードカウントの例だとテキスト形式の入力ファイルが出てきますが、 Hadoopではそれ以外にもバイナリ形式のKey-Valueレコードを保存するためのフォーマットとしてSequenceFileというのがあります。Hadoopは容量が少ないファイルを大量に扱うのは苦…