デジタル化が進む現代において、組織のデータ分析の重要性はますます高まっています。データ活用やデータ分析の民主化を目指しているものの、具体的にどのようなツールを活用して基盤を作ればよいのか悩んでいる方も多いのではないでしょうか。
本記事では、2024年3月5日に開催されたセミナー「dbt cloud、Snowflake、TROCCO®で実現するデータ分析基盤の作り方」をもとに、データ分析基盤の構築方法を説明します。dbt cloud、Snowflake、TROCCO®を用いたデモを交えながら、データ基盤の必要性や各ツールの強みについて詳しく解説します。
データ分析基盤の導入を検討している方、クラウドシフトやデータの民主化を目指している方、dbt cloud、Snowflake、TROCCO®を活用した具体的な手法を知りたい方はぜひお読みください。
なお、動画でご覧になりたい方は以下よりご視聴ください。
TROCCO®ならあらゆるデータの連携・整備・運用を自動化し、
スピーディーにデータ活用の環境を整備できます。
TROCCO®の利用やdbt cloud、Snowflake等の詳細について知りたい方は、
ぜひ一度primeNumberまでご相談ください。
▶primeNumberにデータ基盤構築について相談する
講演者紹介
アーロン・マクグラー/dbt Labs APJ アライアンス・マネージャー
長年にわたり、BIとデータ活用のスペシャリスト・コンサルタントとして活動。現在はdbt Labsのアライアンスマネージャーとして、データエンジニアリングにおける戦略的パートナーシップを促進し、イノベーションを推進。大手テクノロジー企業から新興企業まで、dbt社が業界をリードすることに取り組んでいる。
亀井 美佳/株式会社ジール ビジネスディベロップメント部 シニアマネージャー
データ分析用ソフトウェアの提案・販売・保守に関連するメーカーアライアンス・マーケティングを担当。BI、 DWH、ミドルウェアなどデータ分析基盤に必要とされるプロダクトの顧客提案に携わる。
薬丸 信也/株式会社primeNumber Head of buisiness development
株式会社キーエンスにて製造業向けコンサルティングエンジニアとして従事した後、株式会社primeNumberにパートナー営業・エンタープライズ営業としてジョイン。現在は、広告・IT関連から製造・小売りまで業界を問わず、データ活用基盤の構築を支援している。
SECTION 1 dbt cloud、Snowflake、TROCCO®で実現するデータ分析基盤の作り方
亀井氏とアーロン氏より、データ分析基盤の重要性や作り方などについてご説明いただきました。
データ基盤に関する課題
亀井氏:「データ分析基盤に関する現在の課題についてお話しします。最新の研究によると、多くの企業がデータ基盤を適切に活用できていない理由として、以下の3つの問題が指摘されています。
まず、データ基盤を担える人がいないことです。次に、統合すべきデータが多数存在し、その運用が複雑化している点です。そして、データ基盤の活用が進んでいないことが挙げられます。
各課題は、今日のセミナーに参加されている皆さんにとっても共通の悩みであると考えています。私たちが扱うデータは多岐に渡ります。各問題に取り組むことで、より効果的なデータ分析基盤を構築する道が開けるでしょう。」
データ分析・活用へのプロセス
亀井氏:「データ分析・活用のプロセスは、いくつかの重要なステップに分けられます。まず、データの収集・統合を行い、その結果を蓄積します。その上で、蓄積したデータを分析し、最終的に得られたインサイトを活用して、ビジネス指標の改善を図ります。
このプロセスでは、多様なデータソースが関与するため、ETL・ELTの手法を用いてデータウェアハウス(DWH)にデータを統合し、ビジネスインテリジェンス(BI)ツールを用いて可視化・分析を進めることが不可欠です。
具体的には、マーケティングデータやオープンデータ、さらには情報系データの収集が求められます。
また、データの保存場所にはオンプレミスやクラウド、ローカルなどさまざまな選択肢が存在します。
各要素を踏まえた上で、データを効果的に活用し、売上向上やコスト・ロスカットにつなげることがめざされます。」
亀井氏:「データ活用の新標準は、クラウド技術を駆使してデータの収集、処理、保管、分析を一元管理することにあります。
最近、このアプローチは広まりを見せており、とくにクラウド上でのデータレイクとデータウェアハウスを組み合わせることで、柔軟かつスケーラブルなデータ分析基盤の構築が可能になっています。
従来のデータアーキテクチャから進化したこの新しい標準は、データ活用の効率と効果を大幅に高めると期待されています。」
亀井氏:「最新のデータアーキテクチャには、従来型のデータ基盤と比べて多くのメリットがあります。
従来型では、ハードウェアの準備や高度な技術知識が必要で、利用開始までに時間がかかりがちでした。これに対して、最新のデータ基盤(モダンデータスタック)はクラウドでの開発・運用が可能で、ビジネスユーザーでも扱える操作性を備えています。
また、スモールスタートがしやすく、導入のハードルが低いのも特徴です。デジタルネイティブな環境で、ビジネスユーザーがデータを自由に活用できるよう設計されているのが、モダンなデータスタックの魅力です。
最新のデータアーキテクチャ環境では、データドリブンな意思決定を素早く、柔軟に実現する選択肢が提供されます。
とくに、ビジネスユーザーが分析基盤を活用できることが重要であり、モダンデータスタックは注目を集めています。
しかし、従来型のシステムからクラウドへ移行することには容易ではないという現実もあります。移行のメリットが分かっていても、実際の変革には挑戦が伴います。」
亀井氏:「ユーザーによるデータ活用基盤の実現についてお話しします。
ユナイテッドアローズ様の事例では、データの民主化を加速させるために、これまでオンプレミスで運営されていたデータウェアハウスをクラウド化することが求められました。
Snowflakeの活用により、データの収集、蓄積、統合が効率的に行えるようになりました。外部へのデータ出力機能が向上したことで、データの民主化に向けて大きな前進を遂げたのです。
また、これまでの高額なオンプレミスデータウェアハウスの管理コストを削減し、従量課金体系への移行によって運用保守コストの平準化も実現しています。
さらに、さまざまなデータソースとの柔軟な連携を図るため、多種多様な環境との接続が可能なETLツールを導入しました。そうすることでユーザー自身がTROCCO®を活用し、データの加工から外部システムへの出力を行える運用体制を構築しました。
データの活用基盤をクラウドに移行し、利便性を大幅に向上させた事例は、他の企業様にも参考になると思います。」
亀井氏:「データ分析と活用のプロセスでは、まずはソースデータの収集と統合が重要です。
- 基幹系や情報系
- マーケティングデータ
- オープンデータ など
以上のように、データにはさまざまな種類があります。
また、データの場所も多様で、オンプレミスのサーバーやクラウド、ローカル環境などから収集されます。各データを効果的に統合するためには、ETL(抽出・変換・読み込み)またはELT(抽出・読み込み・変換)の手法が必要です。
次のステップでは、収集したデータを蓄積し、分析し、結果をビジネスに活用します。データウェアハウス(DWH)に蓄積されたデータをBIツールで可視化し、分析したからこそ得られるビジネス指標改善の成果が期待できます。
たとえば、売上の向上やコスト削減、オペレーションの改善などが実現できます。
今日のセミナーでは、こうしたデータ分析活用のステップでは、とくに収集と統合のカテゴリに焦点を当てます。
自身でデータを準備しようとすると時間がかかってしまうことがありますが、TROCCO®やdbt Cloudを活用することで、各プロセスをより効率的に行うことが可能になります。」
dbtとは?
アーロン氏:「dbt(Data Build Tool)とは、データモデリングやデータ変換を行うためのオープンソースツールです。
データパイプラインの一環として、主にデータの整形や集計処理を簡単に行うことができます。dbtを使うことで、生産性を向上させつつ、自社に合ったデータ分析基盤を構築できるのです。」
アーロン氏:「dbtは最新のデータアーキテクチャにおいて中心的な役割を果たし、完全なプッシュダウン実行を実現します。
dbtはSnowflakeなどのデータウェアハウスととても相性が良いと言えます。
私たちが提案するデータ分析基盤は、まず生データ(Raw Data)から始まり、dbtを用いてデータの整形やモデル化を行い、分析用のDatasetsを作成します。
このプロセスは、エンドユーザーにとってのOperational Analyticsを実現し、さらにAIやMLモデルの展開を容易にします。
データプラットフォームの構築は、各要素が相互に連携することで、より効果的なデータ活用を可能にします。」
アーロン氏:「クラウドデータウェアハウスの導入により、私たちは従来のデータ処理フローを大きく変革できます。
クラウドデータウェアハウス(DW)の導入により、データウェアハウス上でのトランスフォーメーションにかかるコストが大幅に改善されるのです。
従来のE-T-L(Extract-Transform-Load)から、現在のE-L-T(Extract-Load-Transform)アプローチへと変革が進んでいます。
この変化により、生データをそのままクラウドに取り込み、必要な時に必要な処理が可能となります。
とくに、クラウドアーキテクチャはSQLファーストで設計されており、弾力的なストレージとコンピュートリソースを活用することで、コストの高いストレージとコンピュートのコストを削減できます。
また、分析ワークフローの不整合も解消され、よりスムーズなデータ処理が実現します。
この文脈においてクラウド上でのトランスフォーメーションが重要な役割を果たすのです。」
アーロン氏:「長い間、データ開発業務には一貫性のないプロセスが存在し、それがデータの品質や信頼性を低下させていました。
その結果、トラブルシューティングにおいても、多くの手間がかかり、データの信頼性が低いという課題に直面していました。」
アーロン氏:「dbtは、SQLスキルを持つすべての人が分析プロセスをテストし、文書化できるようにする開発プロセスを標準化しています。この標準化により、データの信頼性が向上し、分析の効率も大きく改善されます。
さらに、dbtを利用することで、各種データソースからの情報を統合やビジネスインテリジェンス、機械学習、オペレーションといったさまざまな分野で活用できます。
私たちが提供するソリューションは、企業がデータ分析基盤を構築し、成長を促進する手助けとなるでしょう。」
なぜdbtが必要なのか
アーロン氏:「クラウドデータベースの登場により、データの可用性が大幅に向上しました。データを複数の場所で管理することが容易になり、システムの効率も向上しています。
さまざまなソースからデータを抽出し、クラウド環境に集約できます。生データを活用し、効果的なデータウェアハウスを構築できるのです。」
アーロン氏:「データ量が増加する一方で、ビジネスの知識やデータの信頼性が欠如している状況に直面していることが多いです。
具体的には、数値が合わない、データがいつ更新されたのかが不明、更新が遅いといった問題があります。データの一貫性がないことや、未知のプロセスに起因している場合が多く、プロセス自体がボトルネックとなることもあります。
このような環境では、信頼できるデータに基づいた迅速な意思決定が難しくなるのです。」
アーロン氏:「既存のデータ基盤には、主に3つの問題があります。
1つ目は、既存のコードがパイプラインを把握していないことで、はじめから開発した方が簡単だということです。次に、既存の基盤はエラーが発生しやすく信頼性に乏しいので、できれば触りたくないこと。最後に、可視化ツールが使いにくい状況になっていることです。
それを解決するのが、dbtです。」
アナリティクス・エンジニアリングの登場
アーロン氏:「アナリティクス・エンジニアリングは、データ分析の新たなアプローチとして注目されています。
この手法は、データの収集から分析、可視化に至るまでのプロセスを最適化し、ビジネスインサイトを迅速に得ることをめざしています。
とくに、dbt CloudとSnowflake、そしてTROCCO®を活用することで、組織内のデータを効果的に活用し、意思決定の質を向上させます。」
アーロン氏:「dbtはプログラマーのように開発することが大切であり、SQLを共通言語として活用することがそのスタンスの核です。
私たちのデータ分析基盤では、SQLを介してデータモデルの構築が可能であり、これにより多くのデータエンジニアが共通して利用できます。
また、dbtは品質テストやバージョンコントロールもサポートしています。信頼性の高いデータパイプラインを構築し、開発スピードを向上させます。
さらに、23年度のアップデートではPythonのサポートも追加され、より柔軟なデータ処理が可能となりました。」
アーロン氏:「dbtはデータ開発作業を効率的に進めるためのツールであり、全社員が信頼できるデータを構築できます。また、開発スピードの向上やダウンタイムの削減にも寄与します。
dbtを使用することで、さまざまなチームが全体的なガバナンスを維持しつつ、データのバージョン管理やドキュメンテーションによってガバナンスと信頼性を確保できるのです。
その結果、データは信頼され、誰もが質問に答え、価値を生み出すことが可能になります。」
アーロン氏:「データの品質管理には、DatafoldやGreat Expectationsといったツールを使うことで、信頼性の高いデータを維持できます。
最新のデータスタックは、各技術パートナーとの連携によって、全体で50以上の技術を組み合わせることで実現されます。
つまり、データウェアハウスに接続して数分でデータパイプラインを構築、データを利用することができるのです」
アーロン氏:「データはクラウドに保存されることが前提であり、データの整備と管理が不可欠です。
アーキテクチャの全体的な構造を見てみましょう。dbtが、ビジネスルールに沿って重要なモデルをステップごとに作成しています。これを実現するため、dbtはTROCCO®の機能に大きく依存しています。
そもそもデータがクラウド上になければ、利用できるデータがありません。TROCCO®のカタログ機能、リバースETL機能などを利用することで、dbtが利用可能になるわけです。」
共同開発のために一元化された環境
アーロン氏:「共同開発のための一元化された環境を構築することで、データ分析基盤の開発プロセスを効率化できます。
dbtを用いることで、データの品質と信頼性を確保しながら、スムーズなデータパイプラインの運用が可能になることをご理解いただければと思います。」
アーロン氏:「まず、開発環境から始めましょう。ここでは、SQLのスレッドの知識があればデータパイプラインを作成できます。
開発画面では、画面の下にリネージを確認しながら作業を進めることができ、さらにオートコンプリート機能などによって開発をとてもスムーズに行うことができます。
一元化された開発環境と組み合わせることで、データの可視化や分析が容易に行えるようになります。」
アーロン氏:「共同開発のための一元化された環境では、依存関係の管理が重要です。
この環境では、DAG(有向非巡回グラフ)が自動生成され、ドキュメントも自動で更新されます。
とくに、dbtのドキュメンテーション機能はとても優れており、SQLクエリを基に自動的に生成されるリニエージグラフが特徴です。
新しいデータパイプラインを構築する際や、既存のモデルを編集する場合でも、各要素の関係性や依存関係を可視化できるため、とても便利だと考えています。」
アーロン氏:「テスト機能に関しては、dbtには基本的なテストとカスタムテストの2種類が用意されています。
基本的なテストでは、データが特定の条件、たとえば数値がある閾値を超えているかどうかを確認できます。また、カスタムテストでは、複雑なロジックに基づいたテストをSQLで確認できます。
最後はデプロイの機能です。Gitとの連携で効率的にバージョン管理できる開発環境を構築可能です。」
アーロン氏:「dbt導入のメリットをまとめてみましょう。dbtを導入することで、コラボレーションの向上、開発スピードのアップ、品質が高くなる、ガバナンスの向上という、4つのメリットがあります。」
SECTION 2 データ基盤構築におけるTROCCO®の有用性
データ基盤構築におけるTROCCO®の有用性などについて説明しました。
TROCCO®とは?
薬丸:「TROCCO®はフルマネージドのETL/ELTサービスであり、データ統合を自動化することでデータエンジニアリングにかかる工数を大幅に削減します。
ビジネスにおけるデータ活用のプロセスを効率化し、企業が迅速にデータを利用できる環境を提供します。
具体的には、データをビジネスに活用するためにはまずデータを統合し、その後の分析や活用をスムーズに行えるようにする必要があります。TROCCO®がその基盤を支える重要な役割を果たすのです。
また、TROCCO®は、データエンジニアリングやモダンデータスタックに必要な技術スタックを提供します。
データ転送やETL処理を行うことができ、複数のツールを使ったデータの統合や加工を、GUIによって簡単に設定・実行できます。
TROCCO®は、データの加工だけでなく全体のパイプラインを管理する機能を提供しています。」
薬丸:「先ほどご紹介した機能をアーキテクチャに落とし込んでみましょう。
図の左はお客様の社内にあるデータソース、真ん中にはクラウド、左側に加工されたデータがあります。これらをそのまま可視化し、マーケティング効果を上げるために活用できます。
図の仕組みを見ていただくと、少し複雑に思えるかもしれませんが、TROCCO®ならGUIで簡単に管理できます。dbtやSQLでデータを加工し、それをシームレスに活用する流れを実現できるのです。
TROCCO®を利用することで、DWH上のデータを最新の状態に更新したり、dbt Cloudなどでデータを加工したり、加工されたデータを外部サービスに連携したりといった複雑な流れを、GUIでシームレスに管理できます。」
薬丸:「TROCCO®を利用することで、データを集める作業や新しいデータパイプラインの構築、メンテナンスの工数が削減され、データの活用や可視化など、本来やりたい作業に集中できます。」
薬丸:「TROCCO®が選ばれる理由は、高い拡張性と明瞭な料金プラン、手厚いサポートにあります。私たちのプラットフォームは、130種類以上の豊富なコネクタを用意しています。
データ活用基盤を築く際の初期コストを0円に抑え、用途に応じて選べる料金プランをご提供しています。
データ基盤の構築も効率化され、小規模でも始めやすく、ビジネスの変化にも柔軟に対応できる点が魅力です。
さらに、私たちのサービスはとてもわかりやすいUIを備えており、日本語による手厚いサポートも行っています。データエンジニアではない方でも簡単に活用できるように設計されているのです。
データを利用する際の学習コストを最小限に抑え、スムーズに活用していただけるような環境を整えることが可能です。」
TROCCO®の主な特徴
薬丸:「TROCCO® の主な特徴は、主に以下の3つです。
- 簡単にデータパイプラインを構築できる
- ユーザビリティの高いデータマート機能を提供する
- データの流れを完全に自動化できる
各機能により、さまざまなデータソースからデータを効率的に送信し、データ基盤の構築が可能になります。実際に、ステップバイステップで見ていきましょう。
データソースからデータウェアハウスへデータを送る手順です。TROCCO®から送るデータと送り先を選びます。どのテーブルへ、どのようなデータ形式で送るのか、画面を確認しながら、3ステップで作業できます。」
薬丸:「データ送付の際には、データを加工することも可能です。
クラウド環境やデータウェアハウスなどでは、個人情報を送りたくないケースもあると思います。そのような場合は、マスキングなどでセキュリティを確保しながらデータを送付できます。
テンプレートELT機能を利用すれば、コードを書かずにデータ転送が可能です。」
薬丸:「データウェアハウス上のリソースを活用して大規模なデータ加工や分析などを行いたい場合は、データマート機能や、あとで紹介するdbt連携機能が便利です。
データマート機能では、SQLでクエリを書いて実行できます。」
薬丸:「ワークフロー機能では、プログラミング言語を書かずに、ドラッグ&ドロップで送信したいデータと送信先をマウスで選択するだけで、一連の流れを完全に自動化できます。
Slackで完了を通知する機能を追加することもできます。
GUIで全体の依存関係の設定と確認、変更が可能です。」
薬丸:「そして、ワークフロー機能の中に、dbt連携機能があります。dbtコア、dbtクラウドのどちらにも対応しています。
複雑なクエリ作成やテストをdbt側で実行し、TROCCO®のワークフローに組み込むことで、外部データソースと連携しながら定期実行が可能となるのです。」
ワークフローの設定やdbt連携のやり方について知りたい方は、
primeNumberまでお問い合わせください。
▶primeNumberに問い合わせる
まとめ
本セミナーでは、dbt cloud、Snowflake、TROCCO®を用いたデータ分析基盤の構築方法について詳細に解説しました。
各ツールを活用することで、データ基盤の構築が効率的かつ効果的に行えることが分かりました。dbt cloudはデータトランスフォーメーションを効率化し、Snowflakeは大規模なデータ処理を高速かつコスト効果的に実現します。
さらに、TROCCO®を利用することで、データの統合と自動化がスムーズに行え、データエンジニアリングの工数を大幅に削減できます。
データ分析基盤の必要性と各ツールの強みを理解することで、クラウドシフトやデータの民主化が一層推進されます。
データの連携・整備・運用を効率的に進めていきたいとお考えの方は、ぜひ資料をご覧いただき、TROCCO®の活用を検討してみてください。
