誤りを含んでいることがあります。もちろん、意図することではありません。。。。
本文内の英文はHadoopOperationsの抜粋です。
●第4章 PLANNING A HADOOP CLUSTER
まずは、
CDH=Cloudera's Distribution Including Apache Hadoop
こんな略だったと初めてしった。(というか間違えていた)
CDHは、1年毎にMajorリリース、四半期毎にパッチリリースをしているとのこと。
現在、CDH4だから来年はCDH5になっているわけだ。
その後、Hadoopの各バージョンについての説明がある。
0.20、0.21、0.22、0.23、1.00、2.00、CDH3、CDH4といった感じだ。
どのバージョンを選ぶべきかということについては、
搭載機能の比較表が載せられているのだが、
単純にみるとCDH4が各バージョンの持つ機能全てを網羅していることになっている。
ある意味当然なのだが、他は何かしら欠けている。
決めかねるなら、全部入りのCDH4にしておけば良いという話かもしれない。
一つよく分からないのは、HDFS appendの機能だ。
上の表では、0.20以外はすべてチェックされている。
しかし、その少し前の記述には、
"Append was considered a potentially destabilizing feature and many disagreed on the implementation, so it was relegated to a branch."
とある。
チェックされていたのは、一応搭載されているけれど、
もう開発されていないので、実質使えないという意味合いなのだろうか。
ラベル:Hadoop