wiki:HadoopBuckupTask

Version 1 (modified by kosuke, 10 years ago) (diff)

--

バックアップタスク(Googleを支える技術p155)

複数のスレーブに分散させるということは、それだけ故障の発生率も高くなるということである。もし1台でも故障して処理が遅くなると、全体の処理もなかなか終おわらない。 例えば、CPUの設定を間違えて処理速度が遅くなったり、ハードディスクの老朽化や故障などで、読み書きできなくはないが、非常に処理が遅いといったことがある。

ほんの一部のスレーブのために、全体が送れるのはナンセンスです。そこでMapやReduceの処理が少なくなった時には、その残ったMapやReduceとまったく同じ処理が他スレーブで実行されます。