2013年02月16日

FileSystemのrename

HadoopでHDFS上のファイルを移動したい場合、 Fileクラスのrenameを使う方法がある。 インタフェースはこうなっている。 public boolean rename(Path src, Path dst); ここで指定するパスにワイルドカードは使えないようだ。
rename(new Path("/src/*.txt"), new Path("/dest/");
/srcの拡張子txtのファイルを/destにリネームしそうな雰囲気はあるが、何も起こらない。 戻り値booleanもTrueなので、失敗したわけではなく、単に該当無しという感じだ。 てっとり早く動かすにはワイルドカードを使わないことだ。 /src配下の該当ファイル一覧をとってきて、各ファイルについてリネームすれば動く。 ファイル一覧は、listStatusのフィルターを拡張して正規表現や後方一致で絞り込めばいい。 hdfs -mvならワイルドカードを使えるんだが。 そう簡単にはいかないらしい。
posted by Thoughter at 12:15| Comment(0) | TrackBack(0) | Hadoop | このブログの読者になる | 更新情報をチェックする

2012年12月26日

HadoopOperationsのメモ10

※以下はHadoopOperationsを読んで自分なりに理解をしたことをかいていますので、 誤りを含んでいることがあります。もちろん、意図することではありません。。。。 本文内の英文はHadoopOperationsの抜粋です。 ●第4章 Namenode consideration この付近では、NameNodeやSecondaryNameNodeなど各ノードのハードウェアスペックはどの程度が良いのか、という内容が説明されている。 NameNodeのスペックはやはり搭載メモリのサイズがポイントだ。 管理するファイルのサイズというより、ファイルの数によってサイズを見積もる必要があるのは、 よく知られたことだと思う。
Remember that the metadata contains the filename, permissions, owner and group data,
list of blocks that make up each file, and current known location of each replica of 
each block
このあとに、ファイル名が長いほど、よりメモリが必要になるという記述も。 こんなに細かい管理をしているようだ。 おおまかには、100万ブロックの管理には1GBのメモリが必要、という計算になるらしい。 と言われても、一体どれだけなんだ?と思ってしまうが。。 どこかで読んだ、1ファイルあたり100バイトや150バイトくらいになるのだろうか。 他にも書きたいことはあるのだが、 あまり書くのも気が引けるので気になった点のみとした。(今更だが)
posted by Thoughter at 22:22| Comment(0) | TrackBack(0) | Hadoop | このブログの読者になる | 更新情報をチェックする

2012年12月16日

HadoopOperationsのメモ9

※以下はHadoopOperationsを読んで自分なりに理解をしたことをかいていますので、
誤りを含んでいることがあります。もちろん、意図することではありません。。。。
本文内の英文はHadoopOperationsの抜粋です。

●第4章 PLANNING A HADOOP CLUSTER

まずは、
CDH=Cloudera's Distribution Including Apache Hadoop
こんな略だったと初めてしった。(というか間違えていた)

CDHは、1年毎にMajorリリース、四半期毎にパッチリリースをしているとのこと。
現在、CDH4だから来年はCDH5になっているわけだ。

その後、Hadoopの各バージョンについての説明がある。
0.20、0.21、0.22、0.23、1.00、2.00、CDH3、CDH4といった感じだ。

どのバージョンを選ぶべきかということについては、
搭載機能の比較表が載せられているのだが、
単純にみるとCDH4が各バージョンの持つ機能全てを網羅していることになっている。
ある意味当然なのだが、他は何かしら欠けている。
決めかねるなら、全部入りのCDH4にしておけば良いという話かもしれない。

一つよく分からないのは、HDFS appendの機能だ。
上の表では、0.20以外はすべてチェックされている。
しかし、その少し前の記述には、
"Append was considered a potentially destabilizing feature and many disagreed on the implementation, so it was relegated to a branch."
とある。
チェックされていたのは、一応搭載されているけれど、
もう開発されていないので、実質使えないという意味合いなのだろうか。
ラベル:Hadoop
posted by Thoughter at 16:33| Comment(0) | TrackBack(0) | Hadoop | このブログの読者になる | 更新情報をチェックする

広告


この広告は60日以上更新がないブログに表示がされております。

以下のいずれかの方法で非表示にすることが可能です。

・記事の投稿、編集をおこなう
・マイブログの【設定】 > 【広告設定】 より、「60日間更新が無い場合」 の 「広告を表示しない」にチェックを入れて保存する。


×

この広告は90日以上新しい記事の投稿がないブログに表示されております。