今回はGCPでBigQueryを使ってみます。
BigQueryを利用するにはアカウント登録およびプロジェクトを作成しておく必要があります。これらの手続きがまだの方は以下のリンクを参照ください。
【GCP】① Google Cloud Platformを始める
BigQueryとは
BigQueryとはGCPが提供するデータウェアハウスサービスで、その中でSQLの実行機能も有しています。BigQueryの特徴はクエリ処理の速さにあります。
数テラ、数ペタバイトのクエリを実行するとなると通常処理に長い時間を要しますが、BigQueryでは数秒~数十秒のうちに完了させることができます(処理内容による)。
BigQueryのデータソース
BigQueryでは様々なデータソース、外部ツールと連携してデータを取り込むことができます。直接ファイルを読み込むこともできれば、ETLを介してシステムからデータを登録することもできます。また、APIを介したデータ登録も可能です。特にGoogleスプレッドシートやGoogle Analytics等Googleサービスとは親和性が高いです。
BigQueryを試してみる
データの取り込み
先述の通り、BigQueryへは様々なデータソースからデータを取り込むことができます。
ファイルから取り込み
ローカルにあるファイルを保存することができます。BigQueryに入り、「データを追加する」を選択します。
「ファイルを選択」とあるところに読み込むファイルを指定します。ファイルはCSV、JSONなどに対応しています。
送信先には取り込みたいBigQuery データウェアハウス(DWH)のテーブルを指定します。
Google Driveから取り込み
Google Driveからファイル等データを取り込む際はテーブルの作成元をドライブにします。取り込みたいファイルのURIを指定します。
AWS、Azureから取り込み
Azure Blob StorageやAmazon S3と連携してデータを取り込むこともできます。連携にはテーブル作成元と連携元のパス(S3またはAzure)を指定します。
その他外部システムからの取り込み
上記以外にも様々なデータソースからデータを取り込むことができます。DataFlow APIを用いて取り込む方法やパートナーサイトからデータを連携する方法(Infomaticaデータローダ等)があります。
サンプルデータの取り込み
BigQueryをとりあえず試したい場合は用意されたデータセットを利用する方法もあります。「データを追加する」から「公開データセット」を選択します。
すると、データセットの一覧が表示されます。2023年5月時点では200件のデータセットが提供されているようです。
取り込むと、bigquery-public-dataというプロジェクトが一覧に表示されます。
リソースの構造
通常データベースにはデータベース、スキーマ、テーブルのような構造がありますが、BigQueryにも似たような構造が存在します。
基本的にプロジェクト-データセット-テーブルの3層構造になります。実際の表データはテーブルに格納されます。似たようなテーブルはデータセットとして1つにまとめることができます。さらに、複数のデータセットをまとめてプロジェクトとすることができます。
これらの関係は、BigQueryのUI上からも確認することができます。
クエリの実行
ここからはクエリを実行してデータを見ていきます。クエリはSQLの形で記述します。デフォルトでは「無題」となっている下図赤枠内に記述します。
簡単なクエリを実行してみます。テーブルはプロジェクト名.データセット名.テーブル名の形で記述します。「実行」を押すことでクエリが実行されます。
SELECT * FROM `bigquery-public-data.crypto_bitcoin.blocks` LIMIT 1000
実行すると、結果が表示されます。今回はシンプルなクエリですが、テーブルの結合等も可能です。異なるデータセットのテーブルを結合することもできます。
結果を見る
実行結果には様々な情報が含まれています。
ジョブ情報
クエリを実行した日時や消費したバイト数等が表示されます。
結果
クエリの実行結果がテーブル形式で表示されます。
JSON
結果セットがJSONフォーマットで表示されます。
実行の詳細
クエリ実行に要した時間や消費したバイト数が表示されます。インプットのデータ件数と処理後のデータ件数等も表示され、In/Outでのデータサイズの比較もできます。
実行グラフ
クエリ実行時のデータフローおよびそれぞれのセクションでの処理件数、処理時間が可視化されます。
結果の保存
クエリ実行結果はCSVやJSONとしてファイル出力できるほか、BigQueryのテーブルとして保存することもできます。
データの探索
クエリの実行結果をグラフで可視化する等さらに深堀したい場合は、「データを探索」からスプレッドシートやGoogle Colaboratoryと連携することができます。
たとえば「Colabノートブックで探索」とした場合、Google Colaboratoryに遷移し、クエリ結果をPythonで操作することができます。
なお、デフォルトでPythonからBigQueryの実行結果にアクセスするコードは生成されるので、いちいちデータ接続のコードを書かずに済みます。下図のPythonコードは自動生成されたBigQueryとの接続処理です。
まとめ
BigQueryでできることと簡単な使い方について紹介しました。
様々なデータを集め、お手軽に分析できるデータ分析の基盤として有用性は大きいと思います。大規模データにも対応した基盤性能なので、データウェアハウス基盤を検討されている場合はBigQueryも是非選択肢の1つに入れていただきたいです。
なお、重いクエリを実行しまくるとその分課金されてしまうので注意してください。
ではでは👋