今度はHiveを使ってツイートを分析しました。1行1JSONのファイル(Fluentd+Twitter Streaming API)がS3にGZIP形式で格納されているので、このファイルをHiveで処理していきます。環境はMac OS Xです。

Hadoopバージョンはこちら→Hadoop Streamingでアイドルツイート分析

Hiveのインストール

バイナリをダウンロードして展開、インストールします。

~/.bashrcか~/.zshrcの環境変数を変更

Hiveの設定はこんな感じで

S3からHDFSにコピーするパターン

以下のコマンドでS3からHDFSにコピー(HadoopのAWSクレデンシャルの設定は予めしておく)

hiveを起動

テーブルを作成

データ取り込み

S3を外部データとして参照するパターン

EXTERNALを使ってテーブルを作成

パーティションでわける場合はこんな感じで

JSONデータの表示

JSON表示用に以下のようなビューを作成

一回ビューを作ったらあとは普通にSQL書けばOK

参考URL