wiki:Pig

Version 5 (modified by kosuke, 10 years ago) (diff)

--

Pigとは

作者:kosuke

参考: オライリー Hadoop p301〜

Pigは、mapperやreducerなどを書かなくても大規模なデータを分析できるスクリプト言語である(SQLのように扱える)。Pig独自の処理モデルがあるわけではなく、MapReduceで処理している(hadoopモードのみ)。自動的にMapReduceを実行してくれるのでユーザーが心配することはない。しかし、Pigのデータ構造は、主に元のデータに意味づけやネストされたものである。よって、ユーザーはデータを扱いやすくなる。 MapperやReducerが苦手な人のためのものではなく、簡単にデータを分析したいときに使う。また、Pigはクライアントで動くアプリケーションなので、hadoopクラスター側にはなにもインストールする必要がない。以下の環境で動作する。

・シングルノードのJVM((ローカルモード)ローカルのファイルシステムで動作する。小さなデータベースで用いられる。MapReduce処理はしない)

・複数ノードのhadoopクラスタ((hadoopモード)MapReduce処理をする。)