wiki:HadoopBuckupTask

バックアップタスク

参考文献:著者 西田 圭介 Googleを支える技術 ~巨大システムの内側の世界 出版社: 技術評論社 (2008/3/28)

複数のスレーブに分散させるということは、それだけ故障の発生率も高くなるということである。もし1台でも故障して処理が遅くなると、全体の処理もなかなか終おわらない。 例えば、CPUの設定を間違えて処理速度が遅くなったり、ハードディスクの老朽化や故障などで、読み書きできなくはないが、非常に処理が遅いといったことがある。

ほんの一部のスレーブのために、全体が送れるのはナンセンスです。そこでMapやReduceの処理が少なくなった時には、その残ったMapやReduceとまったく同じ処理が他スレーブで実行されます。