wiki:Pig

Version 6 (modified by kosuke, 10 years ago) (diff)

--

Pigとは

作者:kosuke

参考文献:Tom White(2009/6/16) Hadoop: The Definitive Guide O'REILLY 501pp

Pigは、mapperやreducerなどを書かなくても大規模なデータを分析できるスクリプト言語である(SQLのように扱える)。Pig独自の処理モデルがあるわけではなく、MapReduceで処理している(hadoopモードのみ)。自動的にMapReduceを実行してくれるのでユーザーが心配することはない。しかし、Pigのデータ構造は、主に元のデータに意味づけやネストされたものである。よって、ユーザーはデータを扱いやすくなる。 MapperやReducerが苦手な人のためのものではなく、簡単にデータを分析したいときに使う。また、Pigはクライアントで動くアプリケーションなので、hadoopクラスター側にはなにもインストールする必要がない。以下の環境で動作する。

・シングルノードのJVM((ローカルモード)ローカルのファイルシステムで動作する。小さなデータベースで用いられる。MapReduce処理はしない)

・複数ノードのhadoopクラスタ((hadoopモード)MapReduce処理をする。)