2023/11/23に公開
2023/12/16
本ハンズオンでは、Google Cloud Platform(GCP)の強力なデータ分析ツールであるBigQueryと、可視化ツールであるLooker Studioを組み合わせて、データの分析と可視化を行います。
読者としては以下のような方々を想定しています。
BigQueryで扱える公開データセットの一つ「COVID-19(新型コロナウイルス感染症)」を今回は分析対象とします。時系列で新型コロナウイルスの感染者や死亡者数の推移を比較していきましょう。
以下は、本ハンズオンで作成するLooker Studioのボードイメージです。
データ分析の流れは、データレイク、データウェアハウス、BIツールなどの要素が組み合わさっています。それぞれの役割を見ていきましょう。
データレイクはさまざまなソースから収集された大量かつ多様なデータを保存する場所です。
データウェアハウスは、データレイクから必要なデータを抽出し、トランスフォーメーションやクレンジングなどのデータ加工を行い、データを統合します。
BIツールは、データウェアハウスから抽出したデータを可視化します。グラフやチャート、ダッシュボードなどのビジュアル要素を活用してデータを視覚的に表現します。
本ハンズオンで扱う範囲は青点線内のBigQuery、Looker Studioになります。両方ともGoogle Cloudのサービスのため、連携しやすく、シームレスなデータ分析と可視化を実現しています。
まずはGoogle Cloudの各サービスを利用するために、ログインしていきましょう。(Googleアカウントは事前に作成しておいてください)
今回はBigQueryが用意する公開データセットの「covid19_open_data」を利用します。手順は以下の通りです。
スキーマタブを選択してみます。分析対象のテーブルは、COVID-19(新型コロナウイルス感染症)の公開データで、感染者数や死亡者数、ワクチン接種数などを含んでいます。タブバーの「クエリ」を選択し、以下のSQLを実行してみましょう。
SELECT
date
,country_name
,new_confirmed
,new_deceased
FROM `bigquery-public-data.covid19_open_data.covid19_open_data`
WHERE
country_name = 'Japan'
AND subregion1_code is not null
AND date BETWEEN '2021-09-01' AND '2022-8-31'
「データを探索」ボタンから「Looker Studioで調べる」を選択する。
それでは、Looker Studioを触っていきましょう。グラフをクリックすると右サイドバーにグラフの設定画面が出てきます。
Looker Studioのグラフの設定画面で以下項目を調整しましょう。
いかがでしょうか。
時系列グラフで新型コロナウイルスの感染者数、死亡者数を比較することで以下の傾向が見えてきたと思います。
本記事では、GCPのBigQueryとLooker Studioを使用したデータの分析と可視化について解説しました。
BigQueryとLooker Studioを利用すれば、誰でも簡単に膨大なデータを分析&評価できる仕組みを構築できることが分かったと思います。
最後までお読みいただきありがとうございました!
目次