2011-01-01から1年間の記事一覧

LinuxのTCPチューニング

WEB系エンジニア?はLinuxのカーネルパラメータをチューニングして性能を上げたりしているようですが、その辺に興味があったのでメモっときます。正しいかどうかの確証は全くありません。あしからず。ちなみに僕自身はこの手のパフォーマンスチューニングは…

2011振り返り

etc

実は12/23から冬休みに入ってましたw 新年は1/4から仕事です。1年は早いですねえ。今年はHadoopにどっぷりだった気がします。その分開発プロセス周りはほとんどタッチしなくなりました。この辺は仕事がそうだからというのが大きな理由ですね。1年を簡単に振…

Linuxエンジニア

Hadoop仕事するようになってからLinux触る機会が増えた気がしていて、オレもちょっとしたLinuxエンジニアになってきたかなあと思い始めた今日この頃です。普段仕事で使っているマシンは現場は変わっても入社以来ずっとWindows XPだし、Eclipse立ち上げてJava…

hadoopアドベントカレンダー2011 25日目 Hadoopに入門するにあたっての情報源

クレジットカード現金化詐欺【業界人が教える口コミ情報】の12/25を担当するwyukawaです。このブログを書いているのは12/25ですので歴史は改ざんしてません。キリ。今回はHadoopに入門するにあたっての情報源、とりわけ書籍について書いてみたいと思います。…

hadoopアドベントカレンダー2011 23日目 バランサーの実行ユーザ

クレジットカード現金化詐欺【業界人が教える口コミ情報】の12/23を担当するwyukawaです。このブログを書いているのは12/25ですが歴史を改ざんしておおくりします。Hadoopクラスタでデータの分散度合いのバランスをとるためにバランサーを実行することがある…

サッカー見に行ってきた

etc

12/15(木)にクラブワールドカップ準決勝のアルサッド × バルセロナを見に行きました。場所は横浜国際競技場。決勝じゃないのに6万6千人も入ってすげえひとでしたよ。選手入場のときの観客席からのフラッシュとかウェーブとか凄かったですね。試合はという…

Fabricインストールメモ

Hadoopのような複数台のマシンを相手にする作業だと一括でコマンド発行したいことがあります。 その際に各マシンにいちいちSSHでログインして作業するのは面倒です。なのでその辺りを解決するツールが欲しくなります。Hadoop徹底入門だとparallel-sshが紹介…

hadoopアドベントカレンダー2011 11日目 Hadoopのスレーブノードでのメモリ割当

クレジットカード現金化詐欺【業界人が教える口コミ情報】の12/11を担当するwyukawaです。ネタもつきてきたので他人のふんどしで行きますw今日はHadoopのスレーブノードでのメモリ割当について書きます。象本でいうと9章に書いてある話になります。 元ネタは…

hadoopアドベントカレンダー2011 7日目 gzip圧縮

クレジットカード現金化詐欺【業界人が教える口コミ情報】の12/7を担当するwyukawaです。今日はHadoopの圧縮ネタでいきます。圧縮ったっていろいろあるわけですがgzipでいきます。容量節約のためにも圧縮は重要です。象本にも圧縮のことは詳しく書かれていま…

hadoopアドベントカレンダー2011 6日目 Hiveの統計情報(続き)

クレジットカード現金化詐欺【業界人が教える口コミ情報】の12/6を担当するwyukawaです。ええ、書く人がいないので12/2に引き続いて書きます。ていうか明日も書く予定です。いい加減ネタつきるので書く人絶賛募集中です。今日はHiveネタでいきます。以前Hive…

hadoopアドベントカレンダー2011 2日目 小ネタ2つ

クレジットカード現金化詐欺【業界人が教える口コミ情報】, 2日目の12/2を担当する@wyukawaです。今回は最近気がついた小ネタを2つ書きたいと思います。 SSHはHDFS操作やジョブ実行には無関係 NameNodeの謎ファイル なおこれから書くのはHadoop 0.20系の話で…

Hadoopはルイーダの酒場

昨日の深夜に某氏講師による「JavaエンジニアのためのHadoop入門」 の話題がネタになってましたが、僕はJavaエンジニアとしてキャリアを積んできてHadoopに入門しました。キリHadoopはJavaで書かれているのでJavaエンジニアのキャリアのひとつとしていいと思…

ジョブズ伝記を読んだ

スティーブ・ジョブズ I作者: ウォルター・アイザックソン,井口耕二出版社/メーカー: 講談社発売日: 2011/10/25メディア: ハードカバー購入: 58人 クリック: 5,321回この商品を含むブログ (352件) を見るスティーブ・ジョブズ II作者: ウォルター・アイザッ…

Hive 0.8の新機能のプレビュー

Hadoop 0.22はでないのに0.23が出ましたね。個人的には当面0.20系使うのであまり興味はわかなかったのですが、下記ブログにあるHive 0.8のほうはちょっと興味ありますね。http://www.cloudera.com/blog/2011/11/coming-attractions-apache-hive-0-8-0/ ビッ…

Hiveの統計情報

Hive 0.7からanalyzeコマンドで統計情報が取れるようになりました。 [HIVE-1361] table/partition level statistics - ASF JIRAメタストアをDerby以外にしてるのにderby.logとかTempStatsStoreとかあって何だろうと思ったら統計情報を保存しているようです。…

Hadoopのトラブルシューティングに関する資料があったのでめもっとく

Hadoop World 2011でClouderaの人が発表した資料を見つけたのではっておく。 Hadoop Troubleshooting 101 - Kate Ting - Cloudera View more presentations from Cloudera, Inc. Clouderaのサポートチームの極意が詰め込まれているようだ。内容的にはHadoop…

Puppetについての素晴らしい資料があったのでめもっとく

以前ミドルウェアの設定ファイルのバージョン管理について書きました。 ミドルウェアの設定ファイルをどのようにバージョン管理すべきか - wyukawa’s blogで、最近Puppetについての素晴らしい資料を見つけたのではっときます。 Puppetのススメ View more pre…

ミドルウェアの設定ファイルをどのようにバージョン管理すべきか

僕は最近インフラ屋さんになりつつあるのでミドルウェアの設定ファイルをどのようにバージョン管理すべきという話をちらほら考えてます。あ、実際に何かを試した訳ではないです。あしからず。開発したアプリケーションのソースコードをバージョン管理しない…

hadoop fsコマンドの仕様メモを2つほど

lsとstatでは表示されるタイムスタンプが9時間異なる。 $ hadoop fs -ls /user/hive/warehouse/hoge/ Found 1 items -rw-r--r-- 3 hadoop supergroup 189 2011-10-24 17:45 /user/hive/warehouse/hoge/sequencefile $ hadoop fs -stat /user/hive/warehouse/…

ログ解析飲み会

10/19(水)に都内某所でログ解析飲み会なるものを開催した。ログ解析飲み会なのにログが無いってどういうこと?と某氏に突っ込まれたので酔っぱらいの記憶をたよりに書いてみる。ここには書けないオフレコ話も多々あったように思うが忘れたので書かない。ま…

要するにプログラミングって

WEB+DB PRESS 総集編 / I told my code to sing - Backnumbers: Steps to Phantasien相変わらず面白いエントリを書いていて素晴らしいですね。リンク先にあるようなレベルの高い話は置いておいて僕自身にとってプログラミングの抽象というのは何だろうという…

ミドルウェア寄りのことが書かれている良い資料

多分有名だと思うけどまずはこちらLinux-DB システム構築/運用入門 (DB Magazine SELECTION)作者: 松信嘉範出版社/メーカー: 翔泳社発売日: 2009/09/17メディア: 単行本(ソフトカバー)購入: 55人 クリック: 3,402回この商品を含むブログ (32件) を見るDRBD…

Hadoopを使うにはアルゴリズムに関するスキルが必要だねえ。。。

というようなことを子象本読んでいて思った。もちろんソフトウェアを開発するにあたってはHadoop関係無くアルゴリズムに関するスキルが必要です。 アルゴリズムの勉強というのは、スポーツで言えば腕立て伏せや走り込みみたいな基礎体力を養うようなもので、…

Hadoop MapReduce デザインパターンの6,7章を読んでみた。

難しいと評判の6章ですが、撃沈しますたw6.1.2ぐらいまではなんとなくわかりました。昔、バイオインフォマティックスやってた頃にEMアルゴリズムでハプロタイプ推定するプログラムの調査とかしたんだけどなー。遠い目。。。6.1.5までに関しては 第4回MapRedu…

Hadoop MapReduce デザインパターンの4章を読んでみた。

4章は転置インデックスの生成をMapReduceでどう実現するかという話。 4.3 転置インデックスの生成:基準となる実装 では素朴な実装が示されています。疑似コードはこんな感じこの場合Reduce側ではメモリ上でのソートが走るのでスケーラビリティに問題があり…

Hadoop MapReduce デザインパターンの5章を読んでみた。

5章はグラフアルゴリズムの内容。並列幅優先検索の疑似コードはこちらJavaでの実装例はこちら参照MapReduce デザインパターン (6) - めもめもちなみにこのアルゴリズムの内容を理解するにはこちらのスライドのp24からp35を見るのがいいです。具体例が出てい…

Hadoop MapReduce デザインパターンの3章まで読んでみた。

Hadoop MapReduce デザインパターン ―MapReduceによる大規模テキストデータ処理作者: Jimmy Lin,Chris Dyer,神林飛志,野村直之,玉川竜司出版社/メーカー: オライリージャパン発売日: 2011/10/01メディア: 大型本購入: 4人 クリック: 254回この商品を含むブロ…

Hadoop Conference Japan 2011 Fallに行ってきた

Hadoop Conference Japan 2011 Fallに行ってきました。Hadoop Conference Japan 2011 Fall Tickets, Mon, Sep 26, 2011 at 10:00 AM | Eventbriteまずはスポンサーのリクルート様、Hadoopユーザー会の皆様、発表者およびスタッフの皆様、ありがとうございま…

Hiveのベストプラクティス(かもしれないこと)をめもっておく

Hiveの現場に来て4か月経ち回りのやり方を観察したり、他の事例を調べたりしているうちにHiveを使用する際のパターンというかベストプラクティスが見えてきた気がするので書いてみるよ。ユースケースはログ解析です。 1. ファイルフォーマットと圧縮ログは圧…

HadoopのMapReduceのシャッフル

象本2版の6.4 シャッフルとソートを読んでMapReduceのシャッフルって面白いし興味深いなーと思い、ついでに軽くHadoop 0.20系のソースもあわせて読んでみたのでメモっておく。シャッフルっていうとまずソートのイメージだよね。ていうか僕自身はそうだった。…