日本経済新聞社のデータ分析基盤「Atlas」とは？ TROCCO®を活用したデータ民主化への取り組み

日経電子版など数多くのサービスを展開する日経では、データドリブンな開発・意思決定、データ活用文化の醸成を実現し、持続的な成長を支えていくために、データ分析基盤「Atlas」を内製し運用しています。

Atlasは、社内に点在するさまざまなデータソースから集積したデータの分析が強みです。また、このシステムは、開発・運用にまつわる多くの工程が作業者のセルフサービスによってカバーされていることも大きな特徴です。

しかし、社内のリソース不足によりセルフサービスだけでは賄いきれず、エンジニアの工数を圧迫してしまう、データ連携開始までのリードタイムが長くなってしまうなどの課題がありました。

今回は、2024年4月18日に開催されたセミナーを元に、Atlas運用にあたっての課題をTROCCO®導入により改善した事例について、詳しく解説します。

データの統合にお困りですか？
TROCCO®ならあらゆるデータの連携・整備・運用を自動化し、
スピーディーにデータ活用の環境を整備できます！

▶TROCCO®について問い合わせをする

講演者紹介

萩原匡侑 / プラットフォーム推進室データインテリジェンスグループ　データエンジニア

出版社&通販プラットフォーム運営に携わったのちに、株式会社日本経済新聞社のプラットフォーム推進室に所属。Atlasチームのデータエンジニアとして勤務している。

生田目裕太 / 株式会社primeNumber カスタマーサクセス Senior Manager

2019年に豊田通商グループの専門商社へ入社。製造業に対するファクトリーオートメーション、国内外のプロジェクトマネジメントを経験。2022年に株式会社primeNumberに入社し、パートナーセールスの初期メンバーとしてジョインして新規パートナー開拓・育成を行いパートナー事業の立ち上げを行う。その後、エンタープライズセールスとして大手企業向けのTROCCO®提案、ソリューション提案（コンサル、基盤構築、人材育成など）を実施。現在はエンタープライズセールスチームのマネージャーとして提案活動とチームのマネジメントに従事している。

SECRION1：日本経済新聞社のデータ分析基盤「Atlas」とは？

セミナーの前半では、プラットフォーム推進室データインテリジェンスグループ　データエンジニアである萩原匡侑様より、日本経済新聞社のデータ分析基盤「Atlas」についてお話しいただきました。

萩原氏：「Atlasは、デジタルマーケティングのためのデータプラットフォームとして、社内でデータ分析基盤として利用されているシステムです。

日本経済新聞社では、日経電子版をはじめとした各種サービス上でお客様がどういった行動をされているのか、Webでどういったアクセスをされているのか、といった行動ログデータを中心に収集しています。各データを拡張統合し、データ利活用を支えることをミッションに活動しています。

また、データの蓄積のほかに、データの分析・可視化に励んでいます。分析・可視化で得られた結果を元に、社内の施策改善を図っています。このように、データ利活用のパイプライン一連をAtlasがフォローすることによって、日本経済新聞社全体のデータの民主化の一助となっています。」

萩原氏：「Atlasが扱うデータは、以下の4種類です。

行動ログデータ
記事メタデータ
会員関連データ
サービス固有データ

行動ログデータとは、日経電子版を初めとして、日本経済新聞社のWebサービス上でお客様がどういった行動をされたのかを示すデータです。これには、ページビューのほかに、どの記事をどのお客様が読んだのか、どこまで読了したのかというデータや、動画の視聴記録が含まれます。

記事メタデータは、各日本経済新聞社のWebメディアで日々リリースされている、数百、あるいはそれ以上の記事に対する各記事に対するデータです。これは、タイトルや見出し、著者やジャンルなどのデータなどです。

会員関連データは、日経IDを登録している会員の性別、年齢、業種、役職などに関するデータです。これには、会員が登録している料金プランデータや課金状況データも含みます。

サービス固有データには、日本経済新聞社が開催するセミナーイベントの情報や、SNSの運用のデータ、またはSalesforceやマーケティングの履歴のデータなど、日本経済新聞社に関連する各組織が管轄する多様なデータが含まれます。」

萩原氏：「これらのデータをAtlasに対して連携することで、Atlas上で分析が可能になる状況を目指して進めております。Atlasは大きく、以下の3種類のデータソースからデータを統合しています。

各種サービスを利用したお客様の端末
各種日経内部システム
外部システム

お客様の各種端末からは、ブラウザやアプリなどを通じて、行動ログがAtlasにリアルタイムで連携されます。

各種日経内部システムには、クラウドサービスやオンプレミスサービスに内包されている日経IDシステム・課金管理システム・法人契約管理システムなどが該当します。

外部システムとしては、X（旧Twitter）・Google Search Console・Salesforceなどのシステムが該当します。

今回は、外部システムとAtlasのデータ連携についてメインでお話しします。」

萩原氏：「AtlasのメインのデータストアはBiQueryです。

お客様の行動ログデータは、社内独自で開発したニアリアルタイムパイプラインを通じてBigQueryに連携をしています。また、各種日経内部システムや、外部システムのデータは、バッチジョブを情報基盤としてApache Airflowを用いることでBigQueryにデータ連携をしています。

これらのデータはBigQuery上で保管されクエリにされた後、各種データ利活用の現場にエクスポートされています。たとえば、Vertex AIやTableauなどの各種ツールや、DataSquadという編集局向け分析ツールやAtlas Dashboardというビジネスメンバー向けツールに対してデータ連携をすることで、日経社内のデータ利活用を支えています。」

萩原氏：「Atlasは、以下の部署のメンバーが利用しています。

分析チーム
各事業部門
記者・編集局

分析チームは、各事業部門と連携して分析実務を行ったり、事業部門に存在する課題を特定し、施策立案をフォローしたりするチームです。幅広いデータベース化を実現するための試行錯誤を繰り返しています。

各事業部門は、Atlasのデータを用いてデータの民主化を促進するための部門です。アナリストやマーケターの方をはじめとした多くの社員が、自らデータを集計・分析します。この集計・分析は、顧客分析・事業グロース・プロダクト改善などの、事業成長に繋げるための活動に役立っています。

記者・編集局は、各デジタルメディアでの読者反響をリアルタイムにモニタリングすることによって、今読まれている記事の分析や、今後よく読まれる記事の予測をしています。」

日経におけるデータ利活用のケース

萩原氏：「日経におけるデータ利活用のケースは大別して4種類あります。

『記事の評価指標』は、記事が日経電子版のメディア全体に対してどういった影響を持つのかを、エンゲージメントスコアとして保存する指標です。

『ユーザーのエンゲージメント指標』は、3ヶ月後のサービス継続率を目的変数にして、直近の電子版の行動ログを元にスコアリングをすることでエンゲージメントを分析する方法です。」

萩原氏：「ランキング・レコメンドは、Atlasの行動ログデータを用いて導き出されるランキング指標です。これは、AI推薦というタブで行動ログをもとにレコメンドされる記事ランキングや、電子版やPrimeでのアクセスランキングを作る際に用いられます。

MA・コミュニケーションツールへの連携は、Atlas上で顧客のセグメントを作成したり、マーケティングのためのセグメントを用意したりすることで、メール配信やアプリ上でのポップアップ・バナーなどに活用するというものです。」

幅広い利活用を実現するためのセルフサービス化とその課題・対処

萩原氏：「Atlasはセルフサービス基盤を軸として持続的に基盤を提供しようといった試みを進めています。

BigQuery テーブル数、連携サービス数、実行クエリ数や分析環境利用者数などのボリュームに対して、開発・運用チームがかなり小規模であることがボトルネックです。主務が4名しかいないため、全てのデータ利用のニーズに応えることは難しいです。

そのため、利用者がセルフサービスで使いたいデータを統合し、それらをBigQueryのテーブルとして登録することでデータを利活用していただいています。」

セルフサービスで賄いきれないケース

萩原氏：「一方で、セルフサービスではどうしても賄いきれない作業もあります。

たとえば、APIを経由したデータ連携をする場合、APIの叩くようなロジックを各ユーザーに書いていただくことは技術的な知識が求められるため現実的ではありません。かといってエンジニアが対応するにも、リソース不足によってリードタイムが長くなってしまうということがあります。

この課題に対して、ETLツールを導入することによってデータ連携をスピーディーにできるのではないかという期待をしていました。

そういった中でETLツールを導入する場合の要件としては、以下が浮かび上がりました。」

価格感として高すぎず、スモールにスタートしやすいこと
マネージャーのコストがかかってしまうと、運用コスト肥大化に繋がって元も子もないため、メンテナンの工数のかからないフルマネージドのサービスであること
学習障害に繋がっているデータを連携することを試みるユースケースに備えて、利用したいコネクタがサポートされていること
Gitとの連携が可能であり、リソース管理がしやすいこと
ツールを導入するに際しての学習コストが低いこと
ツールのサポートが手厚いこと

TROCCO®を導入することを決定

萩原氏：「上記のような要件に当てはまるツールとして、TROCCO®を導入しました。

各種データ連携のコネクタを用いることで、データ連携のマネージがスムーズになるのではないかという期待感が大きいです。

実際に他社のツールと比較することによって、TROCCO®が我々のニーズに合っているという実感を得ることができました。

フルマネージドの他社ツールと要件について比較したところ、表の通り、TROCCO®を採用するという判断を下しました。

実際にTROCCO®を導入した事例をお話しします。

主にビジネス部門が保有しているような、SalesforceやMarketo、Google Seach Consoleのデータを蓄積・集約する場合に、TROCCO®を活用できています。

各種ビジネス部門でニーズがあるデータに対して1からAPI連携を構築せずに、TROCCO®上でマネージをできるという利点を活かしています。」

TROCCO®を利用してどうだったか

萩原氏：「TROCCO®を数ヶ月運用した所感を表にまとめてみました。

左上は開発フェーズでとくに良かったことです。

TROCCO®はBigQueryに対して最短数分でデータ連携が可能であり、BigQuery上からの操作が可能です。

また、実行エラーになっても課金がされず、同じ価格で開発を進められる点も嬉しかったポイントです。開発フェーズでは試行錯誤をしたいものですが、実行エラーによって課金されてしまうとエンジニアの士気が下がる原因となります。それがないのは大きな強みです。

さらに、不明点があれば日本語による手厚いサポートを受けられるため、スピーディな問題解決が可能です。

右上の運用フェーズで良かったことは、実行の制御のみならず、その実行に対してどういった通知をするかの設定もワンストップでTROCCO®上で管理ができます。

また、チームの権限管理が可能であり、二要素認証の機能にも対応しているため、安心感を持ってチームの運用ができます。

さらに、ジョブ実行ログが溜まってきても検索しやすく、一覧表示も見やすいです。

一方で、今後も改善をしてもらいたいと思っているところもあります。

たとえば左下に記載した開発フェーズにおいては、コネクタによってはAPIのパラメータをすべてカバーできない点があげられます。カスタマーサポートにサポートをリクエストすれば、いずれリリースする機能として要望をまとめてくれます。

エンジニア目線で見た際には、大量のデータを画面上で操作するのは工数がかかります。そのため、GitHubからymlファイルを連携することでTROCCO®に接続情報を作成できるなどの、Git連携機能が向上して欲しいです。

右下の運用フェーズでの課題は、権限の管理です。TROCCO®の特徴として、画面上の操作で設定できるのが便利な反面、事故があると怖いと考えています。

TROCCO®上での運用コストを高くしたくないため、現状は利用者を絞り、データ利用者には権限を渡していません。

今後Git連携が発展したり、よい運用方法を見つけられたりした際に変えられればと思います。」

萩原氏：「続いて、TROCCO®を導入したことによる効果と課題点について話します。

いい効果としては、データ連携の一歩目をスピーディーに実現できたことです。各事業部門のメンバーから接続情報を共有されたあとに、最短10分で1発目のデータ連携を開発環境に再現できるという、スピード感のある作業ができました。

また、ゼロからAPI連携を作り込む開発コストをかけることがなく、TROCCO®上で環境の作り込みができたため、リードタイムを60%程度、削減することが可能になりました。

さらにリードタイム削減により、データ連携以外の作業にエンジニアリングのリソースを割くことができました。

一方、課題としては、TROCCO®の最適な運用方法の模索です。最適な運用方法を模索することでTROCCO®の運用コストを下げる意図がありますが、Atlasが使っているジョブ基盤のAirflowと連携させたところ、そのジョブスケジューラが分散されている状況です。そのため、このジョブスケジューラの管理コストが嵩むことを回避しつつ、マネージする必要があります。

また、連携するデータが増大した際にTROCCO®の画面がストップしてしてしまう、運用管理コストが増加するなどの事象についても、配慮する必要がある。」

これからのAtlasの取り組み

萩原氏：「Atlasの更なる発展とデータ民主化に向けて、今後もチームで以下4点のことを行うことで、データ利活用を促進していきたく思います。

1点目は、より安定的な基盤の提供を行うことで、より可用性が高いアーキテクチャを検討し、可能であれば移行させたいと考えています。また、各コンポーネントの運用コストを下げる意図で、フルマネージドのコンポーネントへの移行をさせたいです。

2点目は、利便性の高いセルフサービス基盤への成長を試みることで、よりユーザーが使いやすく、活用のハードルが低いサービスを目指すことです。これにより、データ利活用サイクルをより迅速に回すことができれば、データ連携の先にあるビジネス価値の是非を見極めることが可能となります。

3点目は、権限管理・データガバナンスの促進をすることです。

ユーザーの権限管理手法の見直しや、ユーザーのデータを日経が利用する際のプライバシーポリシー同意に関する管理手法の策定を行います。

そのほかにも、各データストアに蓄積されたユーザーの個人情報が含まれるデータを削除する際のポリシーの策定、および実際に削除する仕組みの実装が該当します。

4点目は、社内でのデータ利用者を更に拡充するための取り組みです。これは、データ民主化のための啓蒙を社内で行っていくこと、運用開発チームの拡大をすることなどが該当します。」

TROCCO®をおすすめしたい人

萩原氏：「TROCCO®は以下のような人におすすめです。

まず、データ連携を素早く実現したいといった方々。TROCCO®にはコネクタが豊富に対応しており、かつ、逐次コネクタの開発も更新されていっています。また、バージョンアップのメンテナンスコストから解放されます。さらに、画面上で実行設定ができるので、1ストップで連携を管理できたり、データ利活用のイテレーションをスピーディに回せます。

これからデータ利活用したい、という方々にもおすすめです。TROCCO®なら、画面上で各種設定ができるため、データエンジニアのような専門家の作業なしでとりあえずのスタートができます。また、価格のプランも充実しているため、スモールスタートが可能です。必要に応じてデータ加工や、データ集計分析の実行ができ、データカタログ機能も利用可能です。」

SECRION2：株式会社primeNumberのご紹介

###背景灰色

SECTION2では、株式会社primeNumberより生田目より、TROCCO®の紹介を行いました。

生田目：「TROCCO®は、点在したデータを集約し、データを加工していくツールです。」

生田目：「さまざまなソリューション事業と合わせることによって、一気通貫でデータ利活用のご支援をさせていただくことが可能です。

具体的には、最初にコンサルティングから入り、データを使って何をしていくのかのご提案させていただくことが可能です。

また、データ分析基盤の設計や構築も対応可能です。

それ以外にも、自社のナレッジを生かしたデータ利活用、体制構築、人材育成についてもサポートさせていただきます。

ただデータを転送して可視化するだけではなく、何のためにデータを可視化するのか、可視化したデータをどのようにビジネス貢献に繋げていくのかという、データ利活用のコンサルティングまでを一気通貫でサポートするのが株式会社primeNumberです。」

本記事のまとめ

本記事では、日本経済新聞社がAtlasを用いた開発・運用の課題に対してTROCCO®がどのようにアプローチをし改善したのかを、過去開催したセミナーをもとに紹介しました。

従来のAtlasのみを主軸とした運用では、エンジニアの工数がかかってしまう、データ連携開始までのリードタイムが長いなどの問題点がありました。

しかし、TROCCO®を導入することにより、スピーディなデータ連携が可能となりました。

TROCCO®には無料で始められるフリープランがあります。クレジットカードの登録は不要です。

どのようなことが出来るのか知りたいという方はぜひ一度お試しください。

TROCCO ライター

TROCCOブログの記事ライターデータマネジメント関連、TROCCOの活用記事などを広めていきます！