Pig

SQL, PigのCUBE

SQLで小計や総合計を求める時にGROUP BYを利用することが多いと思いますがいろんな軸で集計したい場合にROLLUP, CUBE, GROUPING SETSを使うことができるようです。詳しくはこちら参照 http://homepage2.nifty.com/sak/w_sak3/doc/sysbrd/sq_kj04_4.htmROLLUP…

SQL, Pig, HiveそれぞれのEXISTS

仕事でSQLのEXISTSを書いたことがないwyukawaです。こんばんわ。今日は以下の本を元ネタにEXISTSの話をしようと思います。SQL, Pig, Hiveだとどうなるかもあわせて書きたいと思います。達人に学ぶ SQL徹底指南書 (CodeZine BOOKS)作者: ミック出版社/メーカ…

Pigのin-mapper combining

Pig

以前in-mapper combiningについて書きました。 in-mapper combining - wyukawa’s blogこれはmapper内でなるべく集約してしshuffleフェーズの負荷を下げようというものです。Hiveの場合はhive.map.aggrプロパティでこの機能のオン/オフを制御します。デフォル…

Pigの情報源

Pig

とりあえずめもっとく■本家Welcome to Apache Pig!Ver 0.9.2からドキュメントの量が増えているのでこれを読めば事足りるかも。■書籍Hadoop徹底入門作者: 太田一樹,下垣徹,山下真一,猿田浩輔,藤井達朗,濱野賢一朗出版社/メーカー: 翔泳社発売日: 2011/01/28メ…

PigのNested Block

Pig

Hiveと比べるとややマイナー感が漂うPigですが試してみると、「おお、これはちとHiveだとやりづらいけどPigだと楽かもなー」というのがあります。Nested Blockはその代表な気がするので書いてみます。今回は単純なアクセスログ解析を例とします。入力データ…

パターンでわかるHadoop MapReduce ビッグデータのデータ処理入門

パターンでわかるHadoop MapReduce ビッグデータのデータ処理入門 (NEXT‐ONE)作者: 三木大知出版社/メーカー: 翔泳社発売日: 2012/08/28メディア: 大型本購入: 1人 クリック: 49回この商品を含むブログ (5件) を見るAmazonのレビューでは著者紹介がひどいと…