こんなHadoop本が読みたい

wyukawa's tumblr, descicoさんとHadoopについて話しました Guest descico Show...でも少し話したけど、日本語で読めるHadoop本が古くなっていて今だとちょっと勉強しづらい状況です。

なので、僕だったら、下記のような目次の「はじめてのHadoop」を読みたいので、コミッタがたくさんいるNTT関係者が書いてくれないかなあと思ってたりします。チラチラ。

なおこの目次は「tagomorisが騙る はじめてのHadoop」 - たごもりすメモをベースにしました。

分析基盤で使うことにしてPig, HBaseは無しという前提で書きました。

  • YARN
    • MapReduce
    • Tez
    • Timeline server
    • スケジューラ
  • 設計
    • データ量の見積もり
    • データ圧縮
    • ファイルフォーマット(RCFile, Parquet, ORC)
    • ハードウェア選定
      • CPU、メモリ
      • ノードあたりのHDD台数、ディスクの選択
    • ノード数
    • ディストリビューション選定(Apache Hadoop or CDH or HDP)
    • セキュリティ(RangerとかKnoxとか)
  • セットアップ
    • Cloudera Manager or Ambari or 自前インストール(Ansible or Chef)
    • kernelパラーメーターの確認(THP無効化とか)
    • Hadoopの設定変更(メモリとか)
    • NameNode HA
    • Resource Manager HA
  • データ投入
    • hadoop fs -put
    • WebHDFS
    • DistCp
  • Hive
    • インストール
    • ジョブ実行
    • HiveServer2経由でのクエリ実行、結果取得
    • 外部テーブル
  • Sqoop
  • Fluentd
    • fluent-plugin-webhdfsを使ってappendをオンにしたときとオフにしたときのメリット、デメリットとか
  • 運用
    • モニタリング
      • さすがに今時Gangliaじゃないよね
    • 監視
      • さすがに今時Nagiosじゃないよね
    • Hadoop, Hiveの設定変更
    • ノードの追加
    • DataNode障害時の対応
    • NodeManager障害時の対応
    • NameNode障害時の対応
    • Resource Manager障害時の対応
    • HiveServer2障害時の対応
    • 困った時の対応方法
    • Hadoopのバージョンアップ