HiveのデータフォーマットUDF、UDAF

作者:kosuke

参考:http://www.facebook.com/note.php?note_id=89508453919

Hiveはきちんとしたデータベース上だけでなく、パースされたさまざまなデータで動作させることができる.こういった処理を行いたいときは、 SerDeとObjectInspector? Java interfaceを通す必要がある。処理できるファイルは、テキストファイル、CSVファイル、バイナリファイルなどである。これらのファイル以外を処理したい場合は、SerDeインターフェイスの実行クラスを編集することで対応できる.

ユーザーが定義したデータタイプを使いたいときも、ObjectInspectorJavaインターフェースをつかうことによって解決できる。ObjectInspector自体は、簡単に編集できるため、好きなデータタイプ用にカスタマイズできる。

ユーザーはカスタムなファンクションを定義できる。UDFやUDAFを使うことによって、機能の実装はかなり簡単にできる。つまり、SQLにはないファンクションを自分で作成できる。