クラウドを活用することで、「本当に使えるデータ分析基盤」を低コスト・低工数で構築し、セキュアに運用することができます。
本セミナーではゲスト登壇者として、AWS アナリティクス事業本部 シニア事業開発マネージャーの甲谷 優 (かぶとや ゆたか)氏をお招きし、Amazon Redshift × TROCCO®︎を活用した「クラウドによる分析基盤の構築」について、アーキテクチャやユースケースを交えてお話いたしました。
具体的には、以下についてご紹介します。
- データを有効活用するために最適なデータ分析基盤構成
- Amazon Redshiftを活用するメリット
- クラウドベースのセキュアなデータ分析基盤の構築手法
データ分析・活用を始めたいが何からすればよいかわからない方、Amazon Redshiftのメリット・ユースケースを知りたい方、DWHなどデータ分析基盤導入に向けて検討・調査している方はぜひご覧ください。
なお、当日のセミナーはこちらからもご覧いただけます。
※本イベントレポートの内容は2022年6月当時のものです。TROCCO®の利用や接続オプション等の利用の詳細について知りたい方はprimeNumberまでお問い合わせください。
https://TROCCO.io/inquiry/new
講演者紹介
甲谷 優 氏 / アマゾンウェブサービスジャパン合同会社 アナリティクス事業本部 シニア事業開発マネージャー
AWSでRedShiftの日本市場における事業開発マネージャーを担当。日系通信キャリアでデータマイニング、機械学習の研究者を経験。また、日系通信キャリアでシステム開発・アルゴリズムエンジニアを経験。それ以外にも、日系コンサルティングファームでデータ分析コンサルタントを経験。
薬丸 信也 /株式会社primeNumber カスタマーサクセス部 Head of Business Development
株式会社キーエンスでコンサルティングエンジニアとして従事した後、現職株式会社primeNumberに参画し、パートナー営業・エンタープライズ営業を務める。現在は、現在は、広告・IT関連から製造・小売りまで業界を問わず、データ活用基盤の構築を支援している。
数万のお客様に使われているクラウドデータウェアハウス・Amazon Redshift のご紹介
RedShiftの概要

甲谷氏:「まず、アマゾンウェブサービスの強みとして製品の品揃えが豊富という点がありますが、当社の分析サービスも同様に非常に多数のデータサービスがあります。その中でもRedShiftのData wrehousingと呼ばれるサービスがあります。
このサービスは、2020年にIDCから発表されましたが、20年前の1年間で生成されるデータ量と比較すると現在の1時間あたりに生成されるデータ量の方が多いという特徴があります。これを踏まえ、従来型のデータ分析アーキテクチャについて説明します。
このアーキテクチャは、OLTPやERP、CRM、LOBなどの多様なソースが存在する際にETLのパッチでデータウェアハウスにデータを一度すべて集積し、ケース次第ではデータマートを作成し、BIツール等のエンドの分析ツールで可視化するという仕組みになっています。
こういった従来型のアーキテクチャには3点、課題が浮かび上がります。
1つ目は、従来型のアーキテクチャートを採用するとデータのサイロ化およびシステムの複雑化が進んでしまうという点です。従来型の構成を取ると分析に必要なデータがデータウェアハウスの中に閉じられてしまいます。
この場合にデータにアクセスしたいなら、必ずデータウェアハウスを経由しなくてはならないため、他の分析ワークロードを導入しづらかったり、別の場所にデータを移しづらいというデータのサイロ化が引き起こされます。
その結果、ロードが複雑化することによりクラウドの数だけデータウェアハウスができてデータが分散するというシステムの複雑化につながります。
2つ目に、データウェアハウスはメモリーやCPUなどの有限のリソースで構築されているため、急速に増えていくデータと多様化するニーズへの対応が困難になる点が挙げられます。
データウェアハウスはExcelのテーブルで表現できるような構造化されたデータを対象とした基盤のため、画像やテキストといった構造化されていないデータであったりJSONのような半構造データなどの多様なデータへの対応が困難になります。
それに準じる3点目ですが、気軽に好きなワークロードを用いたデータ分析を行うことができないという点も浮かび上がります。
これら3点の課題により、管理の煩雑化する、システム拡張の際に不必要な開発を伴うなど、TCO観点でコストが跳ね返るという問題につながります。
上記の課題を解決する手法として、スケーラブルなデータレイクを中心とした分析アーキテクチャである、モダンデータ戦略があります。
モダンデータ戦略はデータレイクを中心としている以外にもいくつかの特徴があります。
1点目に、ニーズにごとに最適化された複数の分析サービスを使い分けられることです。
たとえば、OLTPのワークロードが必要であればリレーショナルデータベースを入れる、ログ分析が必要であればオープンサーチなどのサービスを入れる、機械学習を用いる場合にも適切な基板を入れるというような使い分けをされるお客様が増えつつあります。
また、それらのデータサービスが簡単に使えるというメリットもあります。
2点目に、データカタログやアクセスコントローラー、データガバナンスなどの複数の機能が一点に集約されて統一されているということが挙げられます。
3点目に、AIのMLOpsにおいてデータ活用をしてビジネス上の課題解決につながるという箇所が挙げられます。
この際にRedShiftは3つの特徴を持っているデータウェアハウスになります。
1つ目は、Easy analytics for everyoneという、誰でも簡単に分析ができるという点です。これはインフラストラクチャーを気にすることなくデータからインサイトを提供できるということです。
2つ目は、Analyze all your dataという、データウェアハウス内のデータに限らず、RDSやAuroraなどの運用データベースデータや、データレイクのデータについてもシームレスにデータ分析ができ、リアルタイムの予測分析を実行するインサイトを取得できるという点です。
3つ目は、Best price performance at any scalrという、コストパフォーマンスの高さを提供しているという点です。データウェアハウスとしてのパフォーマンスを最大化しコストは低くなるべくサービスを提供しています。
RedShiftではAnalyze all your dataで前述した通り、非常に多様な統合データアクセスが可能になっています。APIサービスと連携が可能であったり、BIツールとの連携が可能であることや、機械学習でもSQLだけで機械学習モデルのトレーニングや推論を行えるようになっているということです。もちろん、3rdパーティのデータも活用できます。
RedShiftの典型的なユースケースとしては、もちろん BI ツールでダッシュボードを作る際に活用していただけますし、定型レポーティングをする際にデータをサマリーしテーブル形にまとめることもできます。
アドホック分析では、たとえば、経営会議に必要なデータをクエリを打って分析するという使い方もできますし、ETLやバッチ処理にも利用可能です。
最近はRedshift MLが機械学習に対応しているため、予測分析も可能ですし、アプリケーションのバックエンドとしてDaaSを用いることもできます。
先ほどのモダンデータ戦略を踏まえ、RedShiftを中心としたデータ分析アーキテクチャ例について説明します。
データソースとデータインテグレーションに関しては非常に多くの選択肢があり、幅広い外部サービスに対応しています。TROCCO®もこのデータインテグレーションを実現してくれるツールです。
ポイントとしては、データレイクとデータウェアハウスが連携している点です。
データレイクを設けることにより、データレイク側で新規のワークロードを簡単に追加することが可能ですし、もちろん、SQLを実行するための基盤としてデータウェアハウスを用いることも可能です。
分析サービスについては、ニーズごとに最適化したサービスを用いることが可能です。
たとえば、Amazon QuickSightというサーバーレス型のBIツールや、AWS Glue DataBrewというノーコードでデータの準備をできるツールもあります。また、MLOpsを実現するた目のAmazon SageMakerがあり、RedShiftのデータからサードパーティサービスからトークをつないで他のデータサービスと連携することも可能です。」
RedShiftの活用事例

甲谷氏:「毎日、何万ものお客様がRedShiftでエクサバイトのデータを処理していますが、この章ではいくつかの事例について説明します。
NTTドコモ様では、ペタバイト級のデータをRedShiftを用いて分析しています。RedShiftを採用した一番の決め手としてはNTTドコモの厳しいセキュリティ基準をRedShiftが適合できたことです。セキュリティ機能やアクセスコントロール機能、ユーザー管理に関するデータの抽出機能においてもRedShiftは評価をいただけています。
ANA様の事例としては、もともとオンプレミスでデータウェアハウスを運用されていましたが、新しい分析技術を試したいというご要望からクラウドに移行しています。RedShiftに移行した結果、新しい分析技術を試せるようになったほか、パフォーマンスの向上や運用負荷が軽減しました。
Amazon.comのECサイトでは、100ペタバイト超の膨大なデータを扱っており、1日の分析ジョブも60万となっています。もともとはOracleで構築されたデータウェアハウスを使われていましたが、S3データレイクとRedShift、RedShift Spectrumというモダンなデータサービスに移行したことにより、コスト削減が可能となりました。
もしRedShiftを構築する際にパートナーが必要であれば、サービスデリバリープログラム認定パートナーがいるためこちらもご検討ください。」
RedShiftのアーキテクチャ

甲谷氏:「大きなポイントとして1つ目に、コンピュートとストレージが分離しています。RedShiftの中にデータベースやエンドポイントに複数のコンピュートノードか並列に配置されています。このコンピュートノードが並列で処理を実行することによって多量のデータを高速に分析できます。
またパフォーマンス改善のため、コンピュートノード側に高速でアクセスできるSSDキャッシュを持っております。
最近では、RedShift Serverlessというモデルを提供検討中であり、東京リージョンにてプレビューでお試しいただける状況となっています。
RedShift Serverlessでは従来のRedShiftと異なる箇所として、分析開始の前に性能検証を行ってノードタイプやノード数などを決めるという工程が必要なくなっています。
ノードタイプやノード数は、実行されるクエリによって自動で決定されますが、従来のRedShiftでは運用中のデータ増加に伴いノードを冷却する時間が必要ですが、その際にノードの変数を増やす以外にもモニタリングが必要になります。
しかしRedShift Serverlessでは前述のように自動で割り当てられるため、モニタリングの必要がないため運用負担が削減できます。
また、RedShiftで実行されるクエリが1日のごく一部の時間しかない場合などに最適ですが、システムがアクティブの時にだけ従量課金がされることも大きなポイントです。」
RedShiftの高いセキュリティ管理機能

甲谷氏:「セキュリティ周りにおけるRedShiftの売りポイントとしては、HIPAAやFedRAMPなどのコンプライアンスの認証を受けておりますので非常に高いセキュリティが担保されています。
他にもセキュリティ管理の多数の機能をデフォルトでコンピュートインしており、データの暗号化機能を無料でお使いいただけます。また、IAM連携やシングルサインオンをサポートしています。
それ以外にも、Amazon VPCを用いたネットワーク分離も可能ですし、アクセスコントロール機能や監査ロギング機能などがデフォルトで利用可能です。」
PrivateLinkを利用したクロスVPCサポート

甲谷氏:「RedShiftに最近追加された機能としてPrivateLinkを利用したクロスVPCサポートというものがあります。
RedShiftをVPC内に構築した際に、通常はVPC内のサーバーからネットワーク接続ができなくなりますが、他のVPCに対してこのPrivateLink機能を利用することでエンドポイントを設けることができ、セキュアなアクセスが可能です。」
query editorについて

甲谷氏:「Easy analytics for everyoneの観点で言いますと、RedShift query editorが挙げられます。
マネジメントコンソールにログインするとこのクエリエディタを開くことができますが、単にクエリ実行が可能なだけではなく、実行したクエリを保存してチーム間で共有することも可能です。
実行結果のテーブルを保存し共有することも可能ですし、無償で簡易的な円グラフや棒グラフを作成しデータの可視化および保存も可能です。」
RedShift Spectrum

甲谷氏:「Analyze all your dataの観点に基づく機能では、前述したRedShift Spectrumが挙げられます。
こちらは先ほどお見せしたRedShiftのアーキテクチャと類似した仕組みですが、S3のデータレイク内にあるバケットに存在するファイルに直接アクセスするという違いがあります。
こちらのファイルについてはPurquet、ORC、JSONといった多くフォーマットをサポートしています。これらのファイルがAWS Glueを用いたデータレイク化しておけばアクセスできます。
このサービスにおいては2点大きなポイントがあります。
まず、RedShift本体ではなくSpectrumという固有のエンジンからアクセスするためより高いパフォーマンスが期待できます。そして、S3内のデータとRedShift内のデータをシームレスに連携できます。」
フェデレーテッドクエリ

甲谷氏:「現状、RedShiftはRDS/AuroraのPostgreSQL/MySQLに対して直接クエリの実行が可能ですが、フェデレーテッド機能を用いることでSQLのみでデータの移動が可能です。」
RedShift Data Sharing

甲谷氏:「RedShiftのクラスター間で同一のデータを共有できる点においてはフェデレーテッドクエリと似た機能ですが、データを共有するガードクラスターをプロデューサークラスターと言い、データを読みにいくクラスターをコンシューマークラスターと言うことが前提の際に、RedShiftは前述の通りコンピュートとストレージが完全に分離しているため、プロデューサークラスターのコンピュートを使わずに読むことができます。
これにより、複数のクラスター間で同一のデータを参照しつつもワークロードの完全な分離が可能です。
たとえばETLを実行するクラスターと BI ツールに接続するクラスターがある場合、その2つのクラスター間でデータ共有をする際に、従来であれば同一クラスターで BIツールとETLを同時に動かすとETLの実行中BIツールのパフォーマンスが低下しますが、RedShift Data Sharingであれば互いのパフォーマンスを落とさずに作業が可能です。
このクラスターはクロスアカウント、クロスリージョンでも適用可能です。」
TROCCO®︎によるAmazon Redshiftへのスムーズかつセキュアなデータ連携
次のセクションでは、TROCCO®の概要、TROCCO®の機能、TROCCO®とRedShiftの親和性について説明しました。
TROCCO®の概要

薬丸:「TROCCO®はデータ統合の自動化によりデータエンジニアリングにかかる工数を削減するフルマネージドETL/ELTサービスです。処理エンジンにはEmbulkを採用しており、EKS上の基盤で運用しています。
先ほどご説明のあったRedShiftで点在しているあらゆるデータを統合することが役割です。そしてデータが蓄積された上で可視化および分析されることでデータの活用につながります。」
TROCCO®統合イメージ

薬丸:「たとえば広告系クラウドアプリケーション系、アプリ系やデータベース系などからデータを抽出、加工の過程を経てデータウェアハウスに統合していくことによりデータの分析・可視化が可能になります。」
TROCCO®が自動化するデータ統合工程、コンセプト

薬丸:「データ統合には大別して構築と運用、保守がありますが、たとえば構築の部分ではTROCCO®を使っていただくことで個別のETLプラインを作る必要がない、個別のサーバーを構築する手間が省ける、といったメリットがあります。
そのほかにも、運用においては弊社のCSチームによってエラーハンドリングのサポート等を提供しています。
また、保守においてもたとえばコネクタのAPIのバージョンアップの対応は弊社で行っておりますし、また自動追従という機能があるため、テーブルへの追加なども弊社で対応可能です。
このように多くの工程を自動化することでデータ統合にかかる工数の9割を削減することがTROCCO®の大きなコンセプトとなっています。
TROCCO®は現在、業種・業界問わずにPOCを含めて200社以上のお客様へご採用いただいております。その中では情報システム部門の方はもちろんですが、人材採用の方にもご利用いただいております。」
TROCCO®の機能

薬丸:「データパイプラインの中では、TROCCO®がお役にたてる機能として大きく3つあります。
1つ目に、各データソースからデータをデータレイクもしくはデータウェアハウスに転送する機能です。
2つ目は、データウェアハウスの中で分析用のテーブルを作成する、TROCCO®の中ではデータマートと呼ばれる機能です。
3つ目に、データを抽出して分析用のテーブルを作成し、別のプラットフォームと連携していく一連の流れを一つのワークフローとして管理する ワークフロー機能です。
この一連のパイプラインをTROCCO®に集約して管理することも可能です。」
データパイプラインの構築

薬丸:「TROCCO®はエンジニアの工数を削減することを目的としており、非常に分かりやすいUIを実装することで学習コストの削減を図っています。
実際に、データパイプラインの設定をする場合、3ステップですべてのパイプラインが構築できます。
具体的には、まず転送元と喧騒先のサービスを選びます。続いて、それぞれの接続の情報やテーブルの情報を入力し、最後にプレビュー画面を見ながら加工の結果を確認、保存するのみです。
また、テンプレートETLという、UI上のフォーム/プルダウンから取得したデータを加工できる機能もあります。
具体的な例で申し上げますと、文字列から郵便番号のハイフンを削除して郵便番号を7桁の数字として扱う、カラムの追加によりデータ送信の際にタイムスタンプを付与するというような使い方をします。」
データマート機能

薬丸:「データマート機能は、ELT処理すなわちデータウェアハウス格納庫の処理についても機能が豊富に実装されています。
データウェアハウスに対して、TROCCO®のUI上からもSQLのクエリを実行できます。
大別して2つモードがあり、1つ目はデータ転送モードという、データの抽出をすることにより新しいデータマートを構築するモードであり、2つ目は自由記述モードという、DDL文のようなデータの操作が可能でして、データウェアハウスで利用ができるクエリの実行が可能です。」
ワークフロー機能

薬丸:「そして先ほど作った転送の設定およびデータマートをGUIで並べることにより一連のワークフロー作成が可能です。
このワークフロー機能はジョブの並列実行というアプリに対応しており、TROCCO®の画面上から設定が可能です。」
豊富なコネクタ

薬丸:「TROCCO®は現在約100種類のコネクタをご用意しています。
たとえば、広告系サービス、アプリケーション系サービス、データウェアハウスファイルストレージ、そしてデータベース型に広く対応しています。」
RedShiftとTROCCO®の親和性

薬丸:「TROCCO®は各種クラウドサービスやデータベース系、ストレージ系、Web行動ログ等のデータを利用して自動的かつ定期的に抽出・加工した上でRedShiftに連携可能です。
その後、TROCCO®に収集したデータをデータマート機能を用いて分析のテーブルを作成しデータ分析が可能です。
最終的には、RedShiftへの分析結果を、TROCCO®の利用により自動的かつ定期的に外部サービス連携・可視化が可能です。
TROCCO®とRedShiftの親和性には大別して4点の特徴があります。
1点目は、外部サービスとのデータ連携が容易という点です。これにより、スピーディなデータ分析基盤の立ち上げが可能であり、また、新しいデータパイプラインの構築も非常に簡単になります。
2点目は、分析基盤の構築と運用の工数が大幅に削減できることです。保守やメンテナンス、データソースの更新やAPIの更新は弊社のエンジニアが日々対応しているため、トータルの構築運用保守の工数が削減されます。
3点目は、web 行動力の収集です。この特徴により、Web行動ログと売り上げ等の各種データを突合した分析が可能です。
4点目に、セキュアな接続ができることがあります。よりセキュアな接続として、お客様のAWS環境とのプライベートリンクが提供できます。」
活用イメージ

薬丸:「例として、広告データの活用のケースをご紹介します。
広告データの活用の課題としては、マーケティング施策の属人化や、広告の定量的な効果測定ができていない、データ集計に時間がかかる、集計方法によりデータが異なるなどの事象が挙げられます。
これらに対し、TROCCO®とRedShiftを組み合わせたデータ分析基盤を構築すれば、信頼性の高いデータを常に統合・可視化する、そして、チーム内で統一したデータを確認するところも構築できますし、非常にタイムリーなモニタリングができるため、素早いマーケティングコストのアロケーション判断ができます。
具体的には、Google広告やFacebook広告などの広告データをTROCCO®を経由しRedShiftに転送します。
また、購買データや顧客データについては、SalesforceなどのSaaS系のサービスからTROCCO®を経由してデータを連携します。
それ以外にも、Web 行動ログを連携することで、キャンペーンデータと売上データ、そしてWeb行動ログを突合し、広告・販促のROIやKPIとできます。
また、機械学習によるレコメンドを通じて、人手による分析工数の削減が可能になります。」
まとめ
本記事では、Amazon Redshiftのメリットやユースケースについてご紹介しました。また、AWS PrivateLinkやRedshift Spectrumなどの詳細な機能についても解説しました。セキュアなデータパイプラインを実現したいと考えている方は、本記事で紹介した内容を参考に、現在のデータパイプラインを見直してみてはいかがでしょうか。
また前述されているとおり、弊社の提供しているデータ分析基盤総合支援サービス「TROCCO®」は、データのETL機能を中心としたSaaSのサービスで、Amazon Redshiftとの親和性も非常に高いです。分析基盤の構築と運用の工数を大幅に削減できたり、外部サービスと容易に連携できたりします。
TROCCO®はETLツールとしての機能が中心ですが、メタデータ機能やデータカタログ機能、ワークフロー機能などデータ運用を総合的にサポートする機能を提供しています。データの連携・整備・運用を効率的に進めていきたいとお考えの方や、プロダクトにご興味のある方はぜひ資料をご覧ください。
