データを活用してお客様にあった提案を実施、業界最大級の作品数を誇る「コミックシーモア」を支えるデータ基盤とは 〜他社ETLから乗り換え、データ同期時間を短縮、年間コストを数百万円も削減!〜
エヌ・ティ・ティ・ソルマーレ株式会社
- 課題
- 24時間以内に終わるべき1つの処理に32時間もかかってしまったなど、データの同期時間が非常に長くなっていた
- 以前導入していたETLツールでは、対応不要なアラートが頻発していた
- 目的
- 数時間おきに最新の情報が更新されるデータの鮮度を維持できている
- 社内からのデータ連携の要望に応えられ、データ基盤の利便性が向上している
- 効果
- 3時間半かかっていたデータ転送が2時間ほどに短縮
- 他部署からの依頼に対して遅延なく対応でき、データを元にキャンペーンを設定できている
- データパイプラインの内製により数百万円ほどのコストが削減された
2024年に20周年を迎える国内最大級の総合電子書籍ストア「コミックシーモア」と海外向けの全米最大級の電子マンガ配信サイト「MangaPlaza」を運営するエヌ・ティ・ティ・ソルマーレ株式会社。同社では「TROCCO®︎」導入以前よりデータ活用に力を入れており、2013年頃よりETLツールを活用したデータ基盤を構築していた。しかし頻発するエラーやデータ転送時間に課題を感じ、今回「TROCCO®︎」への置き換えを実施された。
「TROCCO®︎」導入の背景にあった課題やETLツールの比較検討、データ活用における今後の展望について、ご担当者様にお話を伺った。
課題・問題
導入していたETLツールでは、アラートの頻発やデータの同期時間に課題を感じていた
三角 徹様(以下、敬称略):「コミックシーモア」は月間利用者数4,000万人を超える国内最大級の総合電子書籍ストアです。最大の強みは、143万冊(2024年8月末時点)以上のラインナップ、かつ無料でお読みいただけるコミックも38900冊以上と、業界最大級の作品数を抱えていることが挙げられます。オリジナルコミックの配信数は2,000作品を超え、「コミックシーモア」でしか読めない独占配信作品や先行配信作品の豊富さも大きな強みのひとつです。
配信している作品の豊富さ以外にも、毎月2900本以上の圧倒的な施策数、キャンペーン数も挙げられます。出版社様からご提案いただくケースだけでなく、コミックシーモアオリジナルのキャンペーンもあり、ただお得なだけではなくてマンガ好きのコアなユーザーからライトなユーザーまで、幅広く楽しんでいただいています。
西:弊社では約10年前からデータ活用に取り組んでいました。元々は帳票データを出力し閲覧するような簡単なものでしたが、最近は売上や購買データ以外にも新規会員数を取得、ユーザーのクラスタリング分析も行っています。こちらでは、男女や年齢層など細かく50個ほどに分けています。システムを開発するにもデータ連携を前提に設計をするようになりました。
特に最近では、データを活用したユーザー一人ひとりにあった提案に注力しています。MAツールやWeb接客ツールに連携することで、ユーザーごとにパーソナライズされた施策や作品を提供しています。ユーザーに合ったジャンルは何か、良い読書体験を届けるためにどのようなキャンペーンを打つべきか、データを元に決定しています。
コミックシーモアでは高速演算処理とリアルタイム分析、それぞれのデータ基盤を構築しています。
高速演算処理基盤についてはデータウェアハウスとしてGoogle BigQueryを選定しています。数時間おきにデータ同期が必ず実行されるようにしています。そこからのデータフローも細かく決めています。
リアルタイム分析にはOracle Cloud InfrastructureのHeatWaveを利用しています。1秒の差もないレベルでリアルタイムにデータを連携することでユーザー対応などに活用しています。
西:2021年頃までは、データウェアハウスもETLツールも現在と違うものを利用していました。そこからGoogle BigQueryへの移行にあわせて別のETLサービスを導入したのですが、我々では対処できないベンダー側のエラーによるアラートや、対応不要のアラートが頻発するようになりました。
ジョブ自体はタイムアウトのアラートが出ているものの、実際はデータ連携が完了していて対応は不要だったことが何度もありました。夜中にアラートが鳴れば起きて確認し、問題がないことを確認して再び眠りにつくことが日常茶飯事だったのです。ひどいときは月何百件ものアラートに振り回されていました。体感で8割は対応する必要のない、まるで「オオカミ少年」のようなアラートだったと思います。
また、データの同期時間が非常に長くなっていたことにも課題を感じていました。24時間以内に終わらなければならない1つの処理に32時間もかかってしまったこともありました。
社内からは「データ連携の量を増やしたい」という要望が次々と寄せられていたものの、ETLツールの都合で対応できませんでした。なるべくすべての要望には応えたかったのですが、データの同期だけでなく、同期を開始するまでの開発や調整、保守フローの策定など、すべての作業に時間がかかっていました。
こうした課題に対応するため、マネージドなETLツールを導入し、既存のものから載せ替えることにしました。
なぜ「TROCCO®︎」を選んだのか
連携プラグインの拡張性の高さを高評価。比較ではGUI、日本語対応、削減できる時間を重視
西:以前、ETLツールとしてEmbulkを自社サーバーで運用していました。その時のノウハウを活かせないかと考え「Embulk SaaS」といったキーワードで検索していく中で出会ったのが「TROCCO®︎」です。
西:以下の3つのポイントを重視しました。
- GUIで操作できるか
- 日本語サポートに対応しているか
- どのくらい時間を削減できるか
データ基盤を担当できるエンジニアが少ないこと、将来的には次の担当者へ引き継いでいくこと、新しいツールについて習熟期間を短縮したかったことなどの課題をクリアするためには、難しいコードを書かなくてもクリックしていくだけで設定が完了できるような操作性を重視しました。
次に、日本語対応のサポートです。比較対象だったETLツールは海外の企業が提供しているため、もちろん英語でのサポートになりますし、返信まで時間がかかる可能性があります。その点primeNumberは国内企業なので、安心できました。
どれくらい時間が削減できるかについては、当時利用していたETLツールと比較しました。1回あたり3時間半〜4時間かかっていたデータ転送を、2時間に短縮することができています。これによってデータ転送時間にバッファが生まれ、万が一エラーが起きたとしてもやり直しができるようになりました。その結果、データを必要とする部署やユーザーに迷惑をかける可能性が格段に減りました。
また、Embulkとも比較検討しました。Embulkを自社で運用するのであれば仕組みにかかる費用はほぼ発生しませんが、設定や構築に時間がかかってしまいます。感覚的にはEmbulkで1時間かかる設定は、「TROCCO®︎」では5分で終わるイメージです。
西:データのインプット(転送元)、アウトプット(転送先)における連携プラグインの拡張性の高さを評価しています。
弊社では現在、Google CloudやOracle Cloud Infrastructureなど、さまざまなクラウドコンピューティングサービスを併用するハイブリッドクラウドへ移行している最中です。このハイブリッドクラウドのメリットは、サービスの基盤にはAWSを採用しつつも、データ分析にはそれぞれ最適なクラウドを採用することで外部連携がしやすくなり、コストを抑えることができます。各クラウドのいいところだけを集めたような環境です。
そうしたハイブリッドクラウドを円滑に運営していくには多種多様なサービス接続を可能にするETLツールが必要不可欠であり、最終的に「TROCCO®︎」の導入を決定しました。
導入までのスケジュール・過程
通常業務の同時並行で「TROCCO®︎」へ置き換え。非エンジニアの部門に展開する際の工夫とは
西:2021年より初期導入とトライアルを進めさせていただき、翌年の2022年3月から本格的に運用を開始しました。そこから外部連携ツールとして利用を続け、2022年7月ごろから更改を検討し、そこから社内合意や運用準備を経て11月から切り替えていきました。
ツールの置き換えにあたっては、primeNumber社のカスタマーサクセスの方からサポートいただきました。データ基盤の構築以外にも同時並行で業務を進める中、疑問点に対する応答が迅速でとても助かっています。
西:コミックシーモアのサービス基盤上のデータを主に転送しています。また広告系SaaSのデータも取り込んでいますが、現状「TROCCO®︎」とのコネクタはないため、データを整形した上でGoogle BigQueryへ転送しています。
社内のシステムについては、主にキャンペーン管理のシステムや漫画コンテンツの情報を「TROCCO®︎」でGoogle BigQueryへ転送しています。
窪田:私たちの部署では、データ転送とデータマート、ワークフロー機能を主に活用しています。サービスに関するデータや広告データなどを分析の用途に応じて組み合わせながら、毎日決められた時間にデータを自動で転送しています。「コミックシーモア」ではユーザーの属性などに合わせたキャンペーンを実施していますが、「TROCCO®︎」にSQLさえ書いてしまえば自動実行ができるので助かっています。
また「TROCCO®︎」の活用を広げていくための工夫として、簡単なマニュアルを作成しました。設定項目が多いため、メンバーに引継ぎや展開をする際にはミスが起きないようテンプレート用の設定を複製して利用するようにしました。その結果、1ヶ月ほどで社内展開を進めることができました。
導入後の効果
データ同期が短縮し、3時間半はかかる作業が2時間に。内製化で年間コストを数百万円も削減
西:以前利用していたETLツールと比較すると、データの同期時間が短くなったことで、社内のデータ基盤の利便性が向上しました。以前は3時間半もかかっていた作業が、2時間ほどにまで削減できています。もちろん、以前のような無駄なアラートで起こされることもなくなりました。
窪田:Git連携によるソースの一元管理で稼働が大きく削減されました。これまでテーブルの構成で変更があった際に、100近くあるツールのソースを一つひとつ影響がないか複数のメンバーで手分けして確認していたのですが、その作業がなくなりました。いまではテーブル名を検索するだけで修正すべき設定を特定できています。
既存ツールのメンテナンス稼働が削減されたため、機械学習を活用した施策精度の向上に取り組むこともできるようになりました。また他部署からのデータ抽出やデータ分析依頼に対しても、余裕を持って対応できるようになったのは嬉しいですね。
窪田:広告代理店様へのデータ共有が大きく変化しています。
以前は広告成果データをCSV形式でFTPサーバーに格納し、代理店様側に手動でダウンロードいただいていました。現在では「TROCCO®︎」を活用することでGoogle BigQueryから必要なデータを転送し、Google Spreadsheetsを介して代理店様に展開できるようになっています。わざわざ手動でCSVをダウンロードしていただく必要がなくなり、データ共有が自動化されたことに代理店様からも「データ確認がスムーズに行えるようになりました」との声をいただいています。
西:以前のETLツールを使用していた頃は、外部のベンダーさんにデータパイプラインの開発を依頼していたのですが、「TROCCO®︎」の導入ですべて内製化することができました。そのため、たとえ「TROCCO®︎」をヘビーに活用したとしても、外部のベンダーさんによる開発費まで考慮すると、以前と比べてコスト削減ができています。概算では、年間で数百万円ほどは下がりました。
今後の展望
機械学習でユーザーの行動履歴データを分析し、一人ひとりに最適化されたレコメンドを
西:コミックシーモアにはユーザー一人ひとりにあったコンテンツを提供するためのレコメンドシステムがあります。今後はサイト内の行動履歴データを分析して、チューニングし、精度を上げてユーザーにより満足していただけるようなシステムにしていきたいと考えています。
また、KPI以外の数値化しにくいデータもあらかじめダッシュボード化しようとしています。経営メンバーを含む社内から求められたデータを、いつでも自分たちで確認できるようにすることで、資料作成などの稼働時間などを削減していきたいですね。
西:一度覚えてしまえば「TROCCO®︎」はとても楽なツールです。無料で操作できるフリープランも出ていますので、ぜひ手を伸ばして触ってみてはいかがでしょうか。
データ分析基盤の構築・運用は
TROCCO®️におまかせ。
ETL/ELTパイプライン構築やワークフローなどを、SaaS上で実現。データエンジニアの工数を削減して、分析やクリエイティブな業務に集中しましょう。
製品資料をダウンロード