誤りを含んでいることがあります。もちろん、意図することではありません。。。。
本文内の英文はHadoopOperationsの抜粋です。
●第3章 YARN
YARN=Yet Another Resource Negotiator
まずはじめに、YARNが作られた理由が書かれている。
端的には、JobTrackerの弱点を克服するためだ。
大規模クラスタになると、JobTrackerに必要なリソースは膨大になる。
NameNodeは所詮、データを管理できればいいだけだから、
それに比べて各Jobを管理するJobTrakcerの方が重くなるのは想像できそうだ。
そして、JobTrackerも死んだら終わりのSPOFだ。
そこでYARNの登場となる。
YARNでは、JobTrackerの代わりに、ResourceManagerとApplicationMasterといったプロセスが登場してくる。
詳細は以下リンクを参照されたい。
http://hadoop.apache.org/docs/r0.23.0/hadoop-yarn/hadoop-yarn-site/YARN.html
http://www.ne.jp/asahi/hishidama/home/tech/apache/hadoop/0.23/yarn.html
それより現時点で注意しないといけない点として、
"At this time of this writing, YARN is still considered alpha-level software and is not intended for production use."
とある。
Hadoopをダウンロードしようとすると、確かにまだalphaと書いてある。
まだ、PJに採用することは控えたほうが身のためのようだ。
それにも関らず、Hadoop2.0ではMapReduceV1が使えなくなっているのは不可解な話だ。
(今までの変遷の関係で仕方なし?)
HadoopのHA構成を使いたいけど、MapReduceV1も使いたいというケースでは、
どうやら必然的にCDH4という選択肢になるらしい。
CDH4はMapReduceV1もYARNも使えるとのこと。
第3章の締めくくりとして、
「HadoopOperations」はMapReduceV1にフォーカスして書いている、と但し書きがある。
しばらくは十分対応できる内容だろう。(偉そうに。。。)
次回からは、第4章Planning a Hadoop Clusterに入ります。
しかし、遅々として進んでいないような気もする。。
ちなみに既読率は11%です(笑
ただ、後半に出てくるHiveやPigなどなどは一部飛ばそうかと思っています。
ラベル:Hadoop