wiki:Hadoop/HiveFormat

Version 3 (modified by kosuke, 10 years ago) (diff)

--

HiveのデータフォーマットUDF、UDAF

作者:kosuke

参考: http://www.facebook.com/note.php?note_id=89508453919

Hiveはきちんとしたデータベース上だけでなく、パースされたさまざまなデータで動作させることができる.こういった処理を行いたいときは、 SerDeとObjectInspector Java interfaceを通す必要がある。処理できるファイルは、テキストファイル、CSVファイル、バイナリファイルなどである。これらのファイル以外を処理したい場合は、SerDeインターフェイスの実行クラスを編集することで対応できる.

ユーザーが定義したデータタイプを使いたいときも、ObjectInspectorJavaインターフェースをつかうことによって解決できる。ObjectInspector自体は、簡単に編集できるため、好きなデータタイプ用にカスタマイズできる。

ユーザーはカスタムなファンクションを定義できる。UDFやUDAFを使うことによって、機能の実装はかなり簡単にできる。つまり、SQLにはないファンクションを自分で作成できる。