データ活用の重要性は日々増していく一方で、経営やビジネスサイドにデータ活用を促進するよう働きかけることは難しさを伴います。では、スタートアップ企業で働く1人目のデータエンジニアは、どのようなことを意識し、データ活用を成果につなげてきたのでしょうか。 アプリダウンロード数4,200万を突破したレシピ動画プラットフォーム「クラシル」を提供するdely社の事例を通して、事業と一緒にデータがスケールする仕組み、そして近未来のデータ活用の展望についてをお話しいただきました。
※本記事は2023年11月28日に開催されたprimeNumber社主催イベント「01(zeroONE) 2023 」の登壇セッションをもとに編集しております。
登壇者紹介
harry 氏
dely株式会社
開発BU データエンジニア
KT 氏
Snowflake合同会社
シニアプロダクトマーケティングマネージャー兼エヴァンジェリスト
岩田 匠
株式会社primeNumber
ソリューション本部 Head of Data Innovation
ひとりデータエンジニアに求められる資質は「データが創り出す価値」をイメージすること

KT様(以下、敬称略):dely株式会社の「クラシル」は、なんと月間5,600万人もの利用者数を誇る国内最大級のレシピ動画プラットフォームです。その膨大なユーザーのデータ分析を手掛けているharryさんはもともと、社内に1人しかいないデータエンジニアだったそうですね。
harry様(以下、敬称略):「クラシル」は非常に多くのユーザー数を抱えているサービスなのですが、私が入社した当時は、データ分析を専門とする社員が1人もいない状況でした。しかし、会社全体として、もっとデータを活用して、ユーザーにもっと価値を提供していきたいと考えたとき、データ品質を高めるためにもデータエンジニアの採用を強化することになりました。
KT:データエンジニアという人材の絶対数はそもそも少ないですよね。データエンジニアがご自身しかいないとき、どのような意識で働かれていましたか?
harry:基本的にデータエンジニアとは、データでどうにかしなければならない課題が出てきて初めて必要性を実感する職種です。そのため、課題に対して何もできないのであれば、データエンジニアはいらなくなってしまいます。
だからこそ、私1人しかいないときは「データエンジニアはどんな価値を創り出せるのか」を意識し、そしてPRすることを大事にしていました。これは採用活動に余裕がある大手企業よりも、ベンチャー企業にとってより大事な考え方だと思います。

KT:データエンジニア1人の採用でも、会社にとっては大きな投資ですからね。会社がやりたいことを実現し、成果を出せるデータエンジニアが求められると思います。
「データエンジニアだからデータだけ触っていればいい」という考え方ではなく、ビジネスサイドの皆さんと一緒に成果を出していくためにコミットし、データ基盤の構築に取り組んでいく必要があります。
harryさんは1人しかいないデータエンジニアとして、どのようにデータ基盤の構築に取り組んだのでしょうか?
harry:私が入社した当時、すでに退職していた前任のデータエンジニアが構築した、パイプラインが動いているデータ基盤がありました。社員全員がそのデータ基盤を使って分析していたのですが、そのデータ基盤の性能の問題でスケーラビリティがなく、メンテナンスをするにしても工数を割かれてしまうため、やりたいことに対して素早く対応できないケースが頻発するようになったのです。
そこで、データ活用のリアルタイム性とアジリティを高めるため、データ基盤の刷新に取り組むことになりました。
KT:データエンジニアがご自身だけなのに、すごいですね。
harry:実はそんなに難しいことではないと思っています。というのも、昔と違って現在はデータパイプラインの課題を解決するサービスや製品が多くリリースされていますよね。それらを活用し、価値を生み出すデータ基盤を設計し、意思決定したあとは実行するだけです。
使いやすいデータ基盤の構築を追求し、自社の状況にあわせてしっかり整えていけば、たとえデータエンジニアが1人でも成果にコミットできると考えています。
ひとりデータエンジニアが、データ基盤の構築に「TROCCO®」を選んだ理由

KT:harryさんの考えは、SaaSを組み合わせることでデータ基盤を構築するという、まさに「Modern Data Stack(モダンデータスタック)」の考え方ですよね。1人でデータ基盤を構築するにあたって、なぜ「TROCCO®」を導入されたのでしょうか。
harry:既存のデータ基盤でも、外部データを処理してデータ基盤に取り込むことはできていたのですが、データを扱う社員が入れ替わるたびに、何のために作られたパイプラインなのか分からなくなり、データ品質の担保が難しくなっていったのです。また、自分たちでメンテナンスし続けることによる人やサーバのコストの問題も少しずつ顕在化していました。
そこで私が掲げた目的が「私がいなくても、データエンジニアが1人しかいなくても、データ基盤が動いて価値を創り出す状況をつくること」です。
この目的に合致していたのが「TROCCO®」でした。外部データと簡単に連携することができ、GUIベースの操作画面で誰でもデータをメンテナンスし続けられる点が高評価でした。
岩田:harryさんにお話しいただいた通り、「TROCCO®」はGUIベースで処理できる機能が多数実装されています。そのため、1人しかデータエンジニアがいない場合や、データを扱う業務の脱属人化に適しているのです。
「データの民主化」に取り組むdely社のデータマネジメント事例

KT:データエンジニアは1人の体制でも、データアナリストをはじめとしたデータを活用する人が増えていくと、いわゆる「データの民主化」という壁が立ちはだかります。harryさんはデータ基盤を整えたあと、社内にデータ活用を浸透させるためにどのような取り組みをされたのでしょうか?
harry:私はどちらかと言えばインフラ構築に強いデータエンジニアで、データを集めることを得意としています。しかし、「データを集めるだけ」では、何も価値を生み出していないのです。だからこそ、データ活用を社内に広め、価値を生み出すことに悪戦苦闘しました。
さまざまな試行錯誤を重ねた結果、現在では集めたデータを社内に向けて説明し、活用方法を理解してもらう場を設けています。ただ、私のリソースがパンクしてしまったり、間違ったデータの使い方をされてしまったり、といったトラブルも想定されるため、しっかりメタデータを活用することで、データマネジメントを進めています。
KT:データを集めることでさえ、なかなか取り組めていない企業も多いなか、集めたその先を考えているharryさんは本当にかっこいいですね。メタデータを整え、データの活用方法を伝えて、皆さん自由にデータを活用できるようになりましたか?
harry:まだまだ問題は残っています。データがどこにあるか分からず、そのデータが正しいかどうか判断ができていないケースが起きてしまうのです。たとえば、AさんとBさんのそれぞれが別々のデータを集計して指標を作成したところ、同じ目的の指標にも関わらず、違うデータから作られたロジックのためにまったく整合性が取れませんでした。
弊社はSQLのクエリを書ける人こそ多いのですが、データの品質が担保されていないと、ロジックが散在するという問題が起きてしまうのです。

KT:私たちSnowflakeでは「データクラウド」というコンセプトを掲げ、Snowflakeに載せたデータとデータがつながる、つまり許可さえ取れればどんな人が持っている、どんなデータでも扱えるというデータ共有の考え方を発信しています。
データが集まり、クエリが書ける人も集まったその先に、データをどのように扱っていくのかをしっかり考えることが重要なのだと実感しました。
「ガバナンスの壁」を越えるため、データカタログを活用してメタデータを管理

KT:さまざまな企業がデータ人材の育成に力を入れた結果、5、6年前に比べてデータを活用できる人がよい感じに増えてきたと思います。少しずつ「データの民主化」に向けて進んでいくうえで直面するのが「ガバナンスの壁」でしょう。
安心、安全で使えるデータ基盤でなければ組織のインフラとしては使えません。この「ガバナンスの壁」に対してharryさんはどのように向き合っているのでしょうか。
harry:直近では、データカタログを作成してしっかりメタデータを管理し、かつデータモデリングに取り組もうという施策を実施しました。散在したデータを私1人で管理するのは限界がありますから、データガバナンスの土台を構築することは重要なことだと思います。
KT:私もデータを扱う人と対話するなかで、「データカタログ」がひとつのキーワードになっていると感じます。決して新しい言葉ではありませんが、いまだに明確な解決策が提示されていない領域なのではないでしょうか。「TROCCO®」には、データカタログの機能は実装されていますか?

岩田:あります。実際にお客さまからも、メタデータの整理やルール化についてご相談いただくことが少なくありません。現在「TROCCO®」では、DWHからメタデータを自動で取得し、そのメタデータから検索したり、ER図や要約統計情報を表示したりと、メタデータを管理するために必要な機能をご用意しています。
このデータカタログ機能は、「データの民主化」を目指す企業にもっと使っていただきたいですね。弊社が力を入れているポイントでもあります。
生成AIや大規模言語モデルといった技術と、近未来のデータエンジニアの役割とは

KT:最近は生成AIや大規模言語モデル(LLM)のような技術が台頭してきたかと思えば、もうあっという間に実装されるようになりましたよね。加速度的に新技術が発展していくなかで、データエンジニアリングの近未来について、お二人はどのように予想されていますか?
harry:私は今回取り上げたような直近の課題は、まさに生成AIで解決できるのではないかと考えています。どのデータをどのように活用すべきなのかを生成AIやLLMに問いかけたら、それに対して結果が返ってくると便利ですよね。
その結果は常に同じロジックで組まれているし、同じデータから取ってきているので問題も起きません。データ活用のアジリティをもっと高められることが、近未来で起こるべきことですし、私もそれを求めています。
ただ、その近未来を実現するために何をすべきかと考えたとき、私たちデータエンジニアは、LLMにデータの詳細を教えてあげる必要があると思います。LLMへの教育がなければ、返ってくるデータは何の使い道もありません。
岩田:ソリューションという観点で話すと、実際にデータを扱う幅、つまり構造・非構造の観点がより広がるのかなと感じています。
たとえば、実際に画像データに対してLLMを使えばメタデータを簡単に付与でき、そしてデータストアで管理するようになれば、セントラルデータウェアハウスという観点でより繋がってくるのではないでしょうか。
コミュニティのなかで学び、語り合い、データエンジニアの今後を考える

KT:それではセッションの最後に一言いただけますか?
harry:生成AIやLLMなど、近未来のことを考えると、データ活用はすごくワクワクする領域だと思っています。今日のセッションでは、「ひとりデータエンジニア」としてのお話をしましたが、そもそも1人であろうが、データエンジニアがいっぱいいようが、やることは一緒です。
つまり、データを活用することでどのような価値を創り出し、提供するか、そこに対して必死になる、ということです。データエンジニアに必殺技はなく、泥臭くやらなきゃいけないことばかりだと思います。そうした泥臭い体験も、データエンジニアのコミュニティで相談しあったり、ヒントをもらったりしながら、今後も愚直にやっていきます。
KT:Snowflakeでは「SnowVillage」というコミュニティを運営していまして、データエンジニアの方がたくさん集まっています。そのコミュニティのなかでみんなで学び合い、近未来のことをもっと語り合いたいですね。
私が最後にお伝えしたいのは、「人生ずっと学び」ということです。学ばなくなってしまったら取り残されてしまうくらい、今の技術革新は早いのです。
世の中で何が起こっているのかをキャッチアップし、それを活用していく覚悟と勇気がますます重要になっていくでしょう。そうした学びと実践を恐れないことが、データエンジニアの今後を考えるうえで何より重要だと思います。
