HiveのデータフォーマットUDF、UDAF
作者:kosuke
参考:http://www.facebook.com/note.php?note_id=89508453919
Hiveはきちんとしたデータベース上だけでなく、パースされたさまざまなデータで動作させることができる.こういった処理を行いたいときは、 SerDeとObjectInspector? Java interfaceを通す必要がある。処理できるファイルは、テキストファイル、CSVファイル、バイナリファイルなどである。これらのファイル以外を処理したい場合は、SerDeインターフェイスの実行クラスを編集することで対応できる.
ユーザーが定義したデータタイプを使いたいときも、ObjectInspectorJavaインターフェースをつかうことによって解決できる。ObjectInspector自体は、簡単に編集できるため、好きなデータタイプ用にカスタマイズできる。
ユーザーはカスタムなファンクションを定義できる。UDFやUDAFを使うことによって、機能の実装はかなり簡単にできる。つまり、SQLにはないファンクションを自分で作成できる。
