Pigインストール
作者:kosuke
参考文献:Tom White(2009/6/16) Hadoop: The Definitive Guide O'REILLY 501pp
動作環境:ubuntu8.04とSun Java6とpig 0.40とhadoop0.18.3(hadoopモードのみ)
注意:pig0.40はhadoop0.18.xまでしか対応していなかったが、pig 0.50はhadoop0.20.xまで対応している。
1.Javaのインストール
sun-java6-jdkをインストールしてない人は以下のコマンドを実行してインストールする。
sudo apt-get install sun-java6-jdk
誘導にしたがってインストールする。
2.JAVA_HOMEの設定
以下のコマンドを実行する。
export JAVA_HOME=/usr/lib/jvm/java-6-sun/
何も表示されなければ、設定完了。
3.Pigのダウンロード
pig-0.4.0.tar.gzファイルを適当なディレクトリにダウンロードする。
以下のコマンドで pig-0.4.0.tar.gzを解凍する。
tar xzf pig-0.4.0.tar.gz
4.Pigを起動する(ローカルモード)
ローカルで動かす場合は、以下の手順で起動します.(hadoopモードで起動する場合は5で説明します.)
まず解凍してできた、pig-0.4.0ディレクトリに移動します。
cd pig-0.4.0
バイナリディレクトリのバイナリファイルをlocalモードで実行します.
bin/pig -x local
grunt>
と言うように表示されれば完了です.後は、SQLみたいにクエリ(PIGのスクリプト)をタイプしてみてください。
5.Hadoopモードで実行する。
Pig0.4.0はhadoop0.18.xまでしか対応していないので、hadoop0.18.3で動かしてみる。紹介した0.20.0とのインストールでの違いは、conf/hadoop-site.xmlの書き方と、編集するshファイルは、0.20.0が3つだったのに対し、0.18.3は hadoop-env.sh一つのみになった点だ。編集ないようについては以下のサイトを参考にしてもらいたい。
http://hadoop.apache.org/common/docs/r0.18.3/quickstart.html
もちろん、hadoopを使うので、HDFS形式のファイルをしか扱えない。よって解析したいローカルファイルを下記の用にHDFSにコピーする。(フォーマットしてない人はフォーマットしてください.)その前に、hadoopを起動していなかったら、起動してください。
bin/hadoop dfs -copyFromLocal $解析したいファイルのパス $適当なファイル名
ここまで終了すれば準備は完了です.あとはPigを起動するだけです。hadoopモードで動かすときはなにもオプションをつける必要がありません。かならずhadoopが起動した状態で起動してください。以下の用に起動します.
bin/pig
以下の用に表示されれば成功です.
grunt>
