rename(new Path("/src/*.txt"), new Path("/dest/");/srcの拡張子txtのファイルを/destにリネームしそうな雰囲気はあるが、何も起こらない。 戻り値booleanもTrueなので、失敗したわけではなく、単に該当無しという感じだ。 てっとり早く動かすにはワイルドカードを使わないことだ。 /src配下の該当ファイル一覧をとってきて、各ファイルについてリネームすれば動く。 ファイル一覧は、listStatusのフィルターを拡張して正規表現や後方一致で絞り込めばいい。 hdfs -mvならワイルドカードを使えるんだが。 そう簡単にはいかないらしい。
2013年02月16日
FileSystemのrename
HadoopでHDFS上のファイルを移動したい場合、
Fileクラスのrenameを使う方法がある。
インタフェースはこうなっている。
public boolean rename(Path src, Path dst);
ここで指定するパスにワイルドカードは使えないようだ。
2012年12月26日
HadoopOperationsのメモ10
※以下はHadoopOperationsを読んで自分なりに理解をしたことをかいていますので、
誤りを含んでいることがあります。もちろん、意図することではありません。。。。
本文内の英文はHadoopOperationsの抜粋です。
●第4章 Namenode consideration
この付近では、NameNodeやSecondaryNameNodeなど各ノードのハードウェアスペックはどの程度が良いのか、という内容が説明されている。
NameNodeのスペックはやはり搭載メモリのサイズがポイントだ。
管理するファイルのサイズというより、ファイルの数によってサイズを見積もる必要があるのは、
よく知られたことだと思う。
Remember that the metadata contains the filename, permissions, owner and group data, list of blocks that make up each file, and current known location of each replica of each blockこのあとに、ファイル名が長いほど、よりメモリが必要になるという記述も。 こんなに細かい管理をしているようだ。 おおまかには、100万ブロックの管理には1GBのメモリが必要、という計算になるらしい。 と言われても、一体どれだけなんだ?と思ってしまうが。。 どこかで読んだ、1ファイルあたり100バイトや150バイトくらいになるのだろうか。 他にも書きたいことはあるのだが、 あまり書くのも気が引けるので気になった点のみとした。(今更だが)
2012年12月16日
HadoopOperationsのメモ9
※以下はHadoopOperationsを読んで自分なりに理解をしたことをかいていますので、
誤りを含んでいることがあります。もちろん、意図することではありません。。。。
本文内の英文はHadoopOperationsの抜粋です。
●第4章 PLANNING A HADOOP CLUSTER
まずは、
CDH=Cloudera's Distribution Including Apache Hadoop
こんな略だったと初めてしった。(というか間違えていた)
CDHは、1年毎にMajorリリース、四半期毎にパッチリリースをしているとのこと。
現在、CDH4だから来年はCDH5になっているわけだ。
その後、Hadoopの各バージョンについての説明がある。
0.20、0.21、0.22、0.23、1.00、2.00、CDH3、CDH4といった感じだ。
どのバージョンを選ぶべきかということについては、
搭載機能の比較表が載せられているのだが、
単純にみるとCDH4が各バージョンの持つ機能全てを網羅していることになっている。
ある意味当然なのだが、他は何かしら欠けている。
決めかねるなら、全部入りのCDH4にしておけば良いという話かもしれない。
一つよく分からないのは、HDFS appendの機能だ。
上の表では、0.20以外はすべてチェックされている。
しかし、その少し前の記述には、
"Append was considered a potentially destabilizing feature and many disagreed on the implementation, so it was relegated to a branch."
とある。
チェックされていたのは、一応搭載されているけれど、
もう開発されていないので、実質使えないという意味合いなのだろうか。
誤りを含んでいることがあります。もちろん、意図することではありません。。。。
本文内の英文はHadoopOperationsの抜粋です。
●第4章 PLANNING A HADOOP CLUSTER
まずは、
CDH=Cloudera's Distribution Including Apache Hadoop
こんな略だったと初めてしった。(というか間違えていた)
CDHは、1年毎にMajorリリース、四半期毎にパッチリリースをしているとのこと。
現在、CDH4だから来年はCDH5になっているわけだ。
その後、Hadoopの各バージョンについての説明がある。
0.20、0.21、0.22、0.23、1.00、2.00、CDH3、CDH4といった感じだ。
どのバージョンを選ぶべきかということについては、
搭載機能の比較表が載せられているのだが、
単純にみるとCDH4が各バージョンの持つ機能全てを網羅していることになっている。
ある意味当然なのだが、他は何かしら欠けている。
決めかねるなら、全部入りのCDH4にしておけば良いという話かもしれない。
一つよく分からないのは、HDFS appendの機能だ。
上の表では、0.20以外はすべてチェックされている。
しかし、その少し前の記述には、
"Append was considered a potentially destabilizing feature and many disagreed on the implementation, so it was relegated to a branch."
とある。
チェックされていたのは、一応搭載されているけれど、
もう開発されていないので、実質使えないという意味合いなのだろうか。
ラベル:Hadoop