効率的なデータ管理で分析の前処理を1/4まで削減!「私がやるべき仕事」に集中するための「TROCCO®」導入
弁護士ドットコム株式会社
- 課題
- データ管理の属人化。仕組み全体が把握できていない状況に
- Embulk とDigDag でデータの転送エラーが多発
- 非効率的なデータ分析業務で「車輪の再開発」が発生
- 目的
- データ管理業務を自動化し、エンジニアリソースを節約したい
- データアナリストの分析業務を効率化
- データ管理・分析全体の可視化
- 効果
- 年間2 – 3人月分のエンジニアリソースを節約
- データ分析の前処理を1/4まで削減
- データの可視化と標準化を進行
日本最大級の法律相談ポータルサイトである「弁護士ドットコム」をはじめ、専門家とユーザーをつなげるサービスを複数展開する弁護士ドットコム株式会社。これまでデータ管理・分析業務の一部が属人的であったという課題からデータ専門部署を立ち上げ、サービス改善のためにデータ活用を推進している。
同社のデータ管理を担うSRE室では、データ管理業務の効率化を目指して「TROCCO®」を導入。また、データ分析を担うData Strategyチームでは「TROCCO®」を活用して分析基盤の構築を進めている。「TROCCO®」導入の背景と、その効果についてお話を伺った。
弁護士ドットコム様の「データ整備・活用」のより具体的な内容を知りたい方は、 2021年11月4日に実施したオンラインセミナーのアーカイブ動画をご覧ください。
導入のきっかけ
データ管理の属人化や分析業務の「車輪の再開発」に課題感
小田島 拓 様(以下、敬称略):弊社で運営している4つのサービス、「弁護士ドットコム」「税理士ドットコム」「BUSINESS LAWYERS」「クラウドサイン」では、サービスごとにデータを集めてくる仕組みが異なっていました。そのため、システム管理全般を担当するSRE室ではデータ管理が各担当で属人化しており、仕組み全体が理解できていない状況だったのです。
一般的にSRE室は「何でも屋」になってしまいがちなのですが、当時の弊社もその例に漏れず、各担当者がそれぞれに業務を進めた結果、「知識の断絶」が起きていました。そのため、発生したエラーの原因が分からず、適切な対処や根本的な改善に取り掛かることが難しい状況だったのです。
小田島:分析用に取り出したプロダクションのデータベースをBigQuery に集約するためのプロセスを、Embulk とDigDag という2つのツールを組み合わせて構築していました。この組み合わせが頻繁に転送エラーを起こしておりまして、その根本的な原因も不明なままだだったのです。
そこで新しくミッションを「データ分析基盤を整理する」ことに設定し、ETLツールの導入を検討し始めました。
鶴 朋子 様(以下、敬称略):Data Strategyチームでは、主にサービスごとのデータや数字の分析を担当しています。分析業務でも属人化の傾向があったため、可視化の範囲やクエリをそれぞれ独自で設定、構築していました。そのため、業務でたびたび「似たようなクエリをすでに作っていた」「以前と同じ作業をしている」といった「車輪の再開発」が散見されていたのです。
そこで分析業務を平準化させ、チームで基盤作りに取り組むことになりました。平準化に必要なことは、まず分析基盤を揃えること、そしてデータを可視化させることです。BIツールのRedash で可視化する範囲も、すべてのサービスで統一していくことになりました。
「TROCCO®」を選んだ理由
貴重なデータエンジニアリソースを年間1人月削減できると試算
小田島:primeNumber社が主催しているデータ分析系の勉強会「Data Engineerig Study」に2020年10月ごろ参加したことがきっかけです。頻発するエラーの原因がEmbulk にあることは分かっていたため、「TROCCO®」がEmbulk のマネージドサービスである点にまず魅力を感じました。
小田島:「TROCCO®」以外のEmbulkマネージドサービスを知らなかったため、特に比較はしていません。費用対効果や操作感を確認するため、年末を挟んで1, 2か月前後でトライアルを実施しています。
小田島:データエンジニアの稼働コストで計算しています。当時の構成ではデータ転送の失敗が月に1回程度発生し、その度にデータエンジニアが原因の究明や再実行を行わなくてはなりませんでした。この業務には、年間1人月にあたる工数がかかってしまっていたため、これを効率化できれば貴重なデータエンジニアのリソースを確保できると考えました。
また、旧システムでデータ転送に失敗した場合、業務でダッシュボードの結果を使用しているビジネス側を待たせていました。これをコストと捉えると、月に80時間程度の稼働時間が掛かる計算になります。この稼働時間というコストも浮かせられるのではないかと考えました。
小田島:いかにして「TROCCO®」の良さを上長に伝えるのか、そのために「絶対に入れたい」という思いを必死に伝えました。primeNumber社にも、稟議が通りやすくなるようなプランに調整していただいております。また、上長も「TROCCO®」導入の予算を獲得できるよう、何度も経営陣に対して説得していたと聞いています。
その結果、無事にトライアル終了時から「TROCCO®」の導入を進めていくことになりました。
導入・構築について
手厚いサポートで想定よりも早いスケジュールで「TROCCO®」を導入
小田島:データ転送の設定だけで1ヶ月は掛かるだろうと見込んでいたのですが、数営業日で終わりました。
松崎 夢乃 様(以下、敬称略):2021年3月にSRE室で本導入し、7月には我々データアナリスト側の活用もスタートしています。
小田島:非常に手厚くサポートしていただきました。データ転送の設定をする場合、一つひとつ手作業で接続していく必要があります。対象のデータテーブルはおおよそ200もあったので、当初はデータエンジニアとデータアナリストで分担し、人海戦術で進めていく予定でした。
そのタイミングでprimeNumber社のカスタマーサクセスの方に相談したところ、「接続対象の一覧を提出してもらえれば、スクリプトを読み込んで処理します」とご提案いただきました。これが非常に助かりまして、導入期間が大幅に圧縮されました。
小田島:弊社が運営している各サービスにおける分析用のデータを、すべてBigQuery に集約し、ダッシュボードツールのRedash に出力しています。
BigQuery でもさらにデータレイクやデータウェアハウスで区分けしており、階層間の移動も「TROCCO®」のデータマート生成機能で整備しています。
小田島:トライアル時から直感的で使いやすいと感じていたのが、「ワークフロー」の機能です。処理の流れが可視化されたことが大きかったと感じています。
また、これまで使っていたEmbulkでは設定ファイルの管理や挙動の確認が難しく、属人化されていました。これが「TROCCO®」上で一元管理されるようになり、データエンジニアだけでなくデータアナリストも扱えるようになりました。
小田島:以前の課題であった「知識の断絶」を防ぐため、作業内容や設定内容をドキュメントに残すようにしています。また、データ分析基盤に関する共有会を適宜行うことにより、知識の平準化に努めています。
また、SRE室とData Strategyチームといったデータに関わる担当者を集めた会議を週一で開催しています。その場で各方面から新しいデータに関する問題が提起されたり、プロジェクトの進捗を管理したりと、会議では「TROCCO®」に関するトピックも多いです。
導入後の効果
データ分析の前処理を以前の1/4まで削減!本来の分析業務に集中
小田島:年間1人月にあたるデータエンジニアの人件費分のコストは抑えられる、と導入時の見積もり通りの成果を実感しています。その後、弊社サービスのクラウドサインにも「TROCCO®」導入するためにプランアップしまして、さらに年間2人月程度のエンジニアリソースの節約になることが見込まれています。
また、自分たちで直接Embulk を操作する時間がほぼゼロになったので、確実に工数削減に寄与していますね。以前はEmbulk に関する業務だけで、月何人日も掛かっていました。その業務のほとんどがエラーの原因調査やその対応だったため、本来の職務であるデータ分析基盤の設計がなかなか進みませんでしたが、今は改善されています。
鶴:Data Strategyチームでは、毎回似たようなクエリを作成していたRedash 上の処理を、データウェアハウスをかませることでだいぶシンプルにできました。分析の前処理については、以前に比べると、1/4程度まで業務を削減できていまして、浮いたリソースは本来のデータ分析業務に回しています。
松崎:また、今後社内でデータに触れる人が増えることを期待しています。例えば、以前は私が頼まれていたデータ抽出業務も、クエリが書きやすくなったことで他部署の人でも一部対応できるようになると思います。こうした改善で、今後事業のスピード全体も上がってくると考えています。
今後の展望
データの力で「専門家を、もっと身近に。」
小田島:率直にもっと幅広く活用していきたいと考えています。データソースとして、Google広告やYahoo!ディスプレイ広告といった広告系、Salesforce といったクラウドアプリケーションのデータも、今後は転送していきたいですね。これはリソースが確保でき次第、順番に対応していきます。
鶴:弊社がミッションに掲げている「専門家を、もっと身近に。」を実現するため、4つのサービスすべてのデータをきれいにし、サービスの提供体験をより改善していきたいです。
松崎:データ視点からサービスをグロースさせ、専門家とエンドユーザの双方にとってよりメリットのある状態にしていくこと、それが今後の展望です。
データ分析基盤の構築・運用は
TROCCO®️におまかせ。
ETL/ELTパイプライン構築やワークフローなどを、SaaS上で実現。データエンジニアの工数を削減して、分析やクリエイティブな業務に集中しましょう。
製品資料をダウンロード弁護士ドットコム株式会社
業種 | IT業界 |
---|---|
設立 | --- |
従業員数 | --- |
事業内容 | --- |