wyukawa's diary

こんなHadoop本が読みたい

Hadoop

wyukawa's tumblr, descicoさんとHadoopについて話しました Guest descico Show...でも少し話したけど、日本語で読めるHadoop本が古くなっていて今だとちょっと勉強しづらい状況です。

なので、僕だったら、下記のような目次の「はじめてのHadoop」を読みたいので、コミッタがたくさんいるNTT関係者が書いてくれないかなあと思ってたりします。チラチラ。

なおこの目次は「tagomorisが騙るはじめてのHadoop」 - たごもりすメモをベースにしました。

分析基盤で使うことにしてPig, HBaseは無しという前提で書きました。

Hadoopの基礎

HDFS

YARN
- MapReduce
- Tez
- Timeline server
- スケジューラ

設計
- データ量の見積もり
- データ圧縮
- ファイルフォーマット(RCFile, Parquet, ORC)
- ハードウェア選定
  - CPU、メモリ
  - ノードあたりのHDD台数、ディスクの選択
- ノード数
- ディストリビューション選定（Apache Hadoop or CDH or HDP）
  - サブスクリプション購入という選択肢ももちろんあり。
- セキュリティ（RangerとかKnoxとか）

セットアップ
- Cloudera Manager or Ambari or 自前インストール（Ansible or Chef）
- kernelパラーメーターの確認(THP無効化とか)
- Hadoopの設定変更（メモリとか）
- NameNode HA
- Resource Manager HA

データ投入
- hadoop fs -put
- WebHDFS
- DistCp

Hive
- インストール
- ジョブ実行
- HiveServer2経由でのクエリ実行、結果取得
- 外部テーブル

Sqoop

Fluentd
- fluent-plugin-webhdfsを使ってappendをオンにしたときとオフにしたときのメリット、デメリットとか

SQL on Hadoop(Impala or Presto or LLAP)

運用
- モニタリング
  - さすがに今時Gangliaじゃないよね
- 監視
  - さすがに今時Nagiosじゃないよね
- Hadoop, Hiveの設定変更
- ノードの追加
- DataNode障害時の対応
- NodeManager障害時の対応
- NameNode障害時の対応
- Resource Manager障害時の対応
- HiveServer2障害時の対応
- 困った時の対応方法
  - HDP使ってるならHortonworks Answers Home Page - Hortonworksを探してみるとか
- Hadoopのバージョンアップ

その他
- 情報収集方法（Hadoop ソースコードリーディングに参加するとか）