この記事はGoogle Cloud Platform Advent Calendar 2014 6日目の記事です。
うちの会社ではGoogleAnalyticsのデータをBigQueryに流しています。どうやら3日目の記事を書いたsatoru_magさんの会社でも導入しているみたいですね!
BigQueryとGoogleAnalytics - Qiita
最近、そのBigQueryを自分のチームで使い始めることになりました。以前、使い始めたので入門部分をまとめて公開しようと思ったらWEB+DB PRESS vol.83に大体書いてありました。。

- 作者: 原田騎郎,吉羽龍太郎,山口陽平,青木雅弥,松下誠太,三宅英明,高橋征義,南川毅文,伊藤直也,海野弘成,高安洋輝,佐藤歩,泉水翔吾,佐藤太一,横江直輔,舘野祐一,橋本翔,渡邊恵太,中島聡,はまちや2,小沢邦雄,長沢智治,WEB+DB PRESS編集部
- 出版社/メーカー: 技術評論社
- 発売日: 2014/10/24
- メディア: 大型本
- この商品を含むブログを見る
BigQueryでデータを集計するのにはSQLのSELECT文を使うのですが、実際さわってみると標準のSELECT文にはない構文を結構使うことになり悩んだりしたので、その辺について書こうと思います。
構造化されたデータに対応する(WITHIN, FLATTEN)
BigQueryではスキーマを定義したテーブルにデータを格納します。データは、csv、もしくはjson形式のファイルから登録することができます。
csvは1行がテーブルの1レコードに対応するのでいいのですが、json形式の場合はプロパティの値が配列とか入れ子のjsonになっていたりするのでどうなるのでしょうか。
このようなデータは正規化することで1対多の関係の複数テーブルに分割できますが、BigQueryの場合は分割せずにそのようなjsonのままテーブルの1レコードとして登録することができます。
これは、テーブルのカラムにREPEATEDなデータ型やRECORD型を定義できるからです。カラムのことをフィールドって呼ぶみたいです。
- REPEATEDなデータ型というのはjsonのプロパティの値が配列になっている場合に対応します。データ型がIntでREPATEDである場合は整数の配列に対応できます
- RECORD型というのはjsonのプロパティの値がjsonになっている場合に対応します。RECORD型でREPEATEDっていうのもできます
1対多のデータを非正規化した状態でテーブルに保存しておくことで、正規化されたテーブルをJOINするより高速に集計できます。
その辺のことが書いてある公式ドキュメントはこちら。
Preparing Data for BigQuery - Google BigQuery — Google Cloud Platform
Google AnaliticsからBigQueryにインポートしたデータが格納されるテーブルは以下のようになっており、RECORD型が使われています。以下のドキュメントからだと分かりませんが、RECORD型でREPEATEDなフィールドもあります。
BigQuery Export スキーマ - アナリティクス ヘルプ
WITHIN
例えば、以下のSQLを実行します。hits
はRECORD型でREPEATEDなフィールドです。
SELECT fullVisitorId ,hits.hitNumber FROM [schema_name.ga_sessions_20141203] LIMIT 4
そうすると以下のような結果になりました。
Row | fullVisitorId | hits_hitNumber |
---|---|---|
1 | 1111 | 1 |
2 | 1111 | 2 |
3 | 2222 | 1 |
4 | 2222 | 2 |
5 | 2222 | 3 |
6 | 2222 | 4 |
7 | 2222 | 5 |
8 | 3333 | 1 |
9 | 4444 | 1 |
結果が4行以上でてますね。でもレコードとしては4つです。fullVisitorId
が4つでそれに対するREPEATEDなフィールドの値を全て取得しそれぞれ行として表示されてます。
各fullVisitorId
毎のhitNumber
をCOUNTしてみましょう。 以下のSQLになりますね。
SELECT fullVisitorId ,COUNT(hits.hitNumber) AS countHitNumber FROM [schema_name.ga_sessions_20141203] GROUP BY fullVisitorId LIMIT 4
これをWITHIN
句を使って書き換えることもできます。
SELECT fullVisitorId ,COUNT(hits.hitNumber) WITHIN RECORD AS countHitNumber FROM [schema_name.ga_sessions_20141203] LIMIT 4
どちらでも結果はこうなります。
Row | fullVisitorId | countHitNumber |
---|---|---|
1 | 1111 | 2 |
2 | 2222 | 5 |
3 | 3333 | 1 |
4 | 4444 | 1 |
ここで、ついでに訪れたページのパスも見たいなぁと思いました。GROUP BY
を使ってる方を書き換えてみて実行します。
SELECT fullVisitorId ,COUNT(hits.hitNumber) AS countHitNumber ,hits.page.pagePath FROM [schema_name.ga_sessions_20141203] GROUP BY fullVisitorId, hits.page.pagePath LIMIT 4
結果はこうなります。countHitNumber
の値がfullVisitorId
とhits.page.pagePath
毎のCOUNT値になってます。また結果として表示される行数も4行です。通常のSQLといっしょですね。
Row | fullVisitorId | countHitNumber | hits_page_pagePath |
---|---|---|---|
1 | 1111 | 2 | /products/1000012911 |
2 | 2222 | 2 | /my/categories/108895 |
3 | 2222 | 1 | / |
4 | 2222 | 1 | /my |
WITHIN
句を使ってみます。
SELECT fullVisitorId ,COUNT(hits.hitNumber) WITHIN RECORD AS countHitNumber ,hits.page.pagePath FROM [schema_name.ga_sessions_20141203] LIMIT 4
結果はこうなりました。今度はcountHitNumber
の数がfullVisitorId
でGROUP BYしたときのCOUNT値になり、パスに重複があっても複数行表示されます。また結果として表示される行数が4より多いです。
Row | fullVisitorId | countHitNumber | hits_page_pagePath |
---|---|---|---|
1 | 1111 | 2 | /products/1000012911 |
2 | 1111 | 2 | /products/1000012911 |
3 | 2222 | 5 | /my/categories/108895 |
4 | 2222 | 5 | /my/categories/108895 |
5 | 2222 | 5 | / |
7 | 2222 | 5 | /my |
8 | 2222 | 5 | /contents/special |
9 | 3333 | 1 | /products/1000018634 |
10 | 4444 | 1 | /products/1000027694 |
GROUP BY
句を使った場合とWITHIIN
句で結果が変わります。この違いはSQLが、FROM
句 -> GROUP BY
句 -> LIMIT
句 -> SELECT
句 の順で処理されると意識すれば腑に落ちるのではないでしょうか。
RECORD型の中にさらにREPATEDな項目があってそれを集計したい場合はどうすればいいのでしょうか。
(実用的な集計ではないですが・・・)hits
というRECORT型の中にhits.customvariables
というRECORD型でREPEATEDな項目があります。hits.customvariables
を、fullVisitorId
毎ではなく、hits
毎に集計したい場合は以下のように書きます。WITHIN RECORD
ではなくWITHIN hits
となっているところが大事です。WITHIN RECORD
とした場合fullVisitorId
毎の集計になってしまいます。
SELECT fullVisitorId ,hits.hitNumber ,COUNT(hits.customvariables.customvarname) WITHIN hits AS countCustomvariables FROM [schema_name.ga_sessions_20141203] LIMIT 4
上のはGoogleのドキュメントでWITHIN node_nameと書かれているやつを使った例でした。
Dealing with Data - Google BigQuery — Google Cloud Platform
FLATTEN
次のは、customdimensions
フィールドでフィルタリングした例です。customdimensions
はRECORD型でREPEATABLEなフィールドです。
SELECT fullVisitorId FROM [schema_name.ga_sessions_20141203] WHERE customdimensions.index = 1 AND customdimensions.value = 'hoge' LIMIT 4
fullVisitorId
毎のヒット数をカウントしてみましょう。
SELECT fullVisitorId ,COUNT(hits.hitNumber) WITHIN RECORD AS countHitNumber FROM [schema_name.ga_sessions_20141203] WHERE customdimensions.index = 1 AND customdimensions.value = 'hoge' LIMIT 4
そうするとエラーが起きます。
Error: Cannot query the cross product of repeated fields customDimensions.index and hits.hitNumber.
複数のREPEATEDなフィールドにアクセスすると上のエラーが起きます。今回で言うと、hits
とcustomdimensions
。もっと単純にWHERE句ではなくSELECT
句に並べた場合でもエラーが起きます。
そんなときはFLATTEN
句を使います。
SELECT fullVisitorId ,hits.hitNumber FROM FLATTEN([schema_name.ga_sessions_20141203], customdimensions) WHERE customdimensions.index = 1 AND customdimensions.value = 'hoge' GROUP BY fullVisitorId, hits.hitNumber LIMIT 4
FLATTEN
句を使うとFROM
句が終わった時点で、customdimensions
の数だけの行に展開されるイメージです。
Dealing with Data - Google BigQuery — Google Cloud Platform
UNION句の代わり
BigQueryで使うSQLにUNION句はありません。しかし、UNIONできないわけではありません。 UNIONしたい場合はFROM句にUNION対象とするテーブル名をカンマ区切りで並べます。
SELECT fullVisitorId ,COUNT(hits.hitNumber) WITHIN RECORD AS countHitNumber FROM [schema_name.ga_sessions_20141202] ,[schema_name.ga_sessions_20141203] LIMIT 4
UNION対象が多い場合や動的に指定したい場合はTable wildcard関数が使えます。例えば3日前から今日までのテーブルをUNIONしたい場合は、TABLE_DATE_RANGE
関数を使って以下のように>書けます。
SELECT fullVisitorId ,COUNT(hits.hitNumber) WITHIN RECORD AS countHitNumber FROM (TABLE_DATE_RANGE([schema_name.ga_sessions_] ,DATE_ADD(CURRENT_TIMESTAMP(), -3, 'DAY') ,CURRENT_TIMESTAMP())) LIMIT 4
他にも正規表現でUNION対象のテーブルを選べるTABLE_QUERY
関数もあります。
Query Reference - Google BigQuery — Google Cloud Platform
おしまい
他にも色々便利そうな関数がたくさんあります!
Query Reference - Google BigQuery — Google Cloud Platform
いろいろ試してBigQueryライフを満喫しましょう!