こんなHadoop本が読みたい
wyukawa's tumblr, descicoさんとHadoopについて話しました Guest descico Show...でも少し話したけど、日本語で読めるHadoop本が古くなっていて今だとちょっと勉強しづらい状況です。
なので、僕だったら、下記のような目次の「はじめてのHadoop」を読みたいので、コミッタがたくさんいるNTT関係者が書いてくれないかなあと思ってたりします。チラチラ。
なおこの目次は「tagomorisが騙る はじめてのHadoop」 - たごもりすメモをベースにしました。
分析基盤で使うことにしてPig, HBaseは無しという前提で書きました。
- Hadoopの基礎
- YARN
- MapReduce
- Tez
- Timeline server
- スケジューラ
- 設計
- データ量の見積もり
- データ圧縮
- ファイルフォーマット(RCFile, Parquet, ORC)
- ハードウェア選定
- CPU、メモリ
- ノードあたりのHDD台数、ディスクの選択
- ノード数
- ディストリビューション選定(Apache Hadoop or CDH or HDP)
- サブスクリプション購入という選択肢ももちろんあり。
- セキュリティ(RangerとかKnoxとか)
- セットアップ
- Cloudera Manager or Ambari or 自前インストール(Ansible or Chef)
- kernelパラーメーターの確認(THP無効化とか)
- Hadoopの設定変更(メモリとか)
- NameNode HA
- Resource Manager HA
- データ投入
- hadoop fs -put
- WebHDFS
- DistCp
- Hive
- インストール
- ジョブ実行
- HiveServer2経由でのクエリ実行、結果取得
- 外部テーブル
- Sqoop
- Fluentd
- fluent-plugin-webhdfsを使ってappendをオンにしたときとオフにしたときのメリット、デメリットとか
- 運用
- モニタリング
- さすがに今時Gangliaじゃないよね
- 監視
- さすがに今時Nagiosじゃないよね
- Hadoop, Hiveの設定変更
- ノードの追加
- DataNode障害時の対応
- NodeManager障害時の対応
- NameNode障害時の対応
- Resource Manager障害時の対応
- HiveServer2障害時の対応
- 困った時の対応方法
- HDP使ってるならHortonworks Answers Home Page - Hortonworksを探してみるとか
- Hadoopのバージョンアップ
- モニタリング