データカタログは、企業が所有する膨大なメタデータ(データそのものではなく、データに関する情報)を効率的に管理・活用するための重要なツールです。データカタログは、データの探索、管理、ガバナンスを支援し、組織全体でのデータ利用を促進します。データの民主化との関連性が高く、注目度が高まっているソリューションの1つです。

市場の盛り上がりもあって、近年さまざまなデータカタログがリリースされ、選択肢が増えています。本記事ではデータカタログの意義や用途について説明したうえで、その中でデータカタログツールである『COMETA®』にはどのような特長があるのかを説明します。

この記事の著者:

川上明久 氏
株式会社D.Force 代表取締役社長。データマネジメント業務の内製化、データベース全般のコンサルティングに多数の実績・経験を持つ。データベースのクラウド移行・コスト削減、データマネジメント組織構築などのテーマでの著書やIT系メディア記事の執筆・連載、セミナー・講演も多数手がける。

データカタログを利用したデータの探索

データカタログの意義を理解するために、代表的なユースケースを挙げて説明します。

データの種類と数は増え続けており、利用したいデータをすばやく探すことは簡単ではなくなってきています。データカタログの代表的な役割は、組織内のメタデータを蓄積して、目的のデータを容易に探せるようにすることです。これは、データエンジニアやデータアナリスト、データサイエンティストといった、エンジニア、非エンジニアの両方にとって重要です。

エンジニアはデータ処理やアプリケーション開発・保守の際に、処理対象のデータを迅速、正確に見つけて処理を実装、変更することが求められます。特に問題になりやすい例としてデータ連携の保守が挙げられます。複雑なワークフローでデータ連携処理を実装している場合、データや処理内容が変更になった際の影響を正しく把握することに時間がかかってしまいます。多くのデータを保有する組織ほどこの問題は深刻で、データ連携の保守生産性の低下によってコストがかかりすぎたり、障害が発生したりという問題につながります。

一方、データアナリストのような非エンジニアにとっては、データ分析の目的に合ったデータがどれなのかを効率よく探索する必要があります。同じ種類のデータであっても、一定期間のデータを抽出したもの、クレンジングを施したもの、他のデータと統合したものなど、多くの派生データが生まれることはよくあることです。このような場合に正しく分析対象のデータを見つけるのは容易ではありません。

このような業務では、データリネージやカラムリネージが有用です。これらのリネージは、データがどのように生成され、変換されて現在の状態に至るのかを追跡する情報です。この機能を使うとデータの来歴をたどって、利用対象のデータを見つけられます。データ分析の初期に探索的にさまざまなデータを探しては確認する、という作業をする際に特に役に立ちます。

データカタログが効果を発揮するには、検索機能と直感的なインターフェースが特に重要です。ユーザーが必要なデータを迅速に見つけ出せるような検索性が備わっていることが求められます。非エンジニアのビジネスユーザーに使ってもらうにあたっては、直感的なユーザーインターフェースがあって、学習コストの低さと使い勝手の良さがあるかがデータカタログの選定において重要な要素です。

まとめると、データの探索を有効に働かせることのできるデータカタログには次の要素があります。

  1. 検索のしやすさ:キーワード検索やフィルタリング機能により、目的のデータセットを迅速に見つけ出せる。
  2. データリネージの可視化:データの生成から加工、データマートに至るまでの流れを追跡し、可視化する。
  3. ユーザーフレンドリーなインターフェース:非エンジニアでも簡単に操作でき、短期間で低い学習コストで使い方を習得できる。

データの民主化とデータカタログ

データの民主化とデータカタログの間には強いつながりがあります。

データの民主化とは、組織内のすべての人がデータにアクセスし、利用できる状態を指します。これは、データが特定のエキスパートや部門に限定されることなく、全社的に共有されて容易にアクセスできることを目指します。データの民主化により、組織全体でデータ駆動型の意思決定が促進され、業務のスピードや意思決定の質が高まることが期待されます。効率の向上や競争力の強化につながりうる戦略的な取り組みがデータの民主化です。

このデータの民主化を支援する重要なツールがデータカタログです。誰でもすばやくデータにアクセスできるようになるには、どこに、どのようなデータがあるかを容易に把握できることが前提になります。

組織のメンバーには、ITリテラシーが必ずしも高くなく、社内に存在するデータについての知識が少ない方が多くいらっしゃるはずです。「民主化」は、そのような方でも「簡単に」「低コストで」データにアクセスできるようになることで実現します。ここで低コストというのは、費用が小さくて済むという意味に加えて、利用方法を習得する学習コストが低く済むという意味も含みます。

データカタログの主要機能

ここでは、一般的にデータカタログにどのような機能が備わっているのかを説明します。

メタデータ管理

データカタログの主要な機能の1つは、データのメタデータを管理することです。メタデータとは、データの内容や意味、構造を説明するデータのことです。データカタログは、メタデータを体系的に整理したものです。ユーザーがデータの意味や背景を理解しやすくするよう構造化されて取り出しやすく格納されたデータベースと、メタデータ管理機能を基本機能として備えています。

データカタログで基本的な情報として管理されるのはテクニカルメタデータです。テクニカルメタデータとは次のような、基盤に実装されているデータに関する属性情報のことです。

名称 ストレージやデータベースでのオブジェクトやカラムの名称
データ型 データの型(文字列、整数、日付など)
キー情報 データを一意に識別するためのキー情報
制約 データの値や範囲に関する条件
アクセス権 データへの参照や更新権限
テクニカルメタデータの要素

メタデータの自動収集

データカタログは通常、メタデータの自動収集に対応しており、基本機能の1つです。収集対象のデータ基盤や領域を指定すると、そこにあるデータのメタデータを自動的に収集して整理するのが、メタデータの自動収集です。

データリネージ

データのリネージ情報は、データがどのように生成され、変換されて現在の状態に至るかを示す情報です。先述したように処理や分析をする対象のデータを効率よく把握するために利用します。多くのデータカタログにデータリネージの機能が実装されています。注意したいのは自動的にデータの来歴の情報を収集できるかです。データの来歴の情報というのは、データ連携、データ加工の実装の内容が分かっているから収集できるものであり、データ連携ツールと協調して動作することで有効な情報が自動収集され、可視化されるものです。

ビジネスメタデータの管理

ビジネスメタデータは、データについてビジネス用語で説明したデータです。説明文や用途についての情報、推奨する利用方法、データの所有者などの次に挙げる情報がビジネスメタデータにあたります。データカタログはビジネスメタデータも管理します。

名称 データの内容を業務用語で表した名称
説明 データの内容を人が読んでわかるように記述した説明文
データソース データの来歴や生成元
オーナー データの所有者や管理者
タグ、ラベル データの分類やカテゴリを示すラベル
用途 データの利用目的や適用範囲
コメント データの利用者からのフィードバックや注意点
ビジネスメタデータの要素

データカタログで、ビジネスメタデータの収集、整理、検索できるようにすると、以下の利点が得られます。

  1. 一元管理:ビジネスメタデータを一元的に管理し、全社で共有することで情報の管理性を高められます。
  2. データ探索:ビジネス用語でデータを探せるようになると非エンジニアにとってデータカタログの使い勝手が増します。
  3. コラボレーション:異なる部門間でのデータ共有とコラボレーションを促進する効果があります。ただしこの段階まで行くのはデータ活用の成熟度が上がっている組織といえます。

ビジネスメタデータとしてどのような項目が必要かは組織やデータ活用の成熟度によってまちまちです。したがって、柔軟に格納項目を定義できることは自社の要件に合わせやすくなる要素の1つといえます。

ここからは、COMETA®の特長を説明します。

データ連携処理でのCOMETA®の活用

データ連携処理の実装において、メタデータの参照は頻繁に発生します。たとえば、Excelや他のツールに頻繁にアクセスすることは、ツールや画面間を移動して頭を切り替える「コンテキストスイッチ」が多発し、生産性の低下を招きます。COMETA®は、データ連携処理を担う『TROCCO®』と連動しメタデータを直接参照できるため、コンテキストスイッチを最小限に抑えます。TROCCO®と同時に利用することによって、データ連携処理を作成、保守する際の生産性を向上させやすくなります。

リネージ情報の取得

データリネージ情報があることで、データ間の関連性を理解しやすくなり、どのデータを活用すべきかが明確になります。COMETA®は、特にTROCCO®との連携によりリネージ情報を自動的に取得できるため、リネージ情報を人がメンテナンスすることなくデータの流れを視覚的に把握できます。

たとえば、販売データがどのようなプロセスを経て最終的なレポートに反映されるのかをリネージ情報で確認することで、データの正確性が検証でき、不整合が発生した場合にはその原因を迅速に特定できます。これは、データ分析やレポート作成の際に有用です。

業務部門主導のデータ活用

COMETA®は直感的に操作できる学習コストが低いサービスですので、業務部門のデータオーナーが自身のデータ連携をTROCCO®で実行しながら、COMETA®でビジネスメタデータを追加・参照することが可能となります。これにより、データ連携からデータ活用まで一貫して業務部門主導で進められ、データ活用のアジリティを上げることにつながります。

実際には初期はエンジニアの伴走支援を得て、メタデータ管理の業務プロセスを整備しながら利用を進めていくのが現実的ですが、データの民主化をゴールとした場合に、このような非エンジニアが利用できるサービスでデータ基盤を構成すると実現性が高まる効果が期待できます。

データカタログがSaaSであることのメリット

データカタログの領域ではさまざまな製品が存在します。その中でCOMETA®はSaaS型で提供されるのが特徴です。SaaS型のデータカタログには多くのメリットがあります。

スピード

インストールや複雑なセットアップが不要で、アカウントを作成してすぐに利用し始められます。データ活用をスピーディーに始められます。

運用負担が小さい

基盤の管理、データの保全などの運用が自動化されており、利用者が基盤を運用する手間がかかりません。データカタログはメタデータの品質向上とリッチ化(内容を充実させること)が重要であり、データエンジニアが本来やるべきことに集中できます。

低コスト

従来は、高機能な商用製品はインストールして管理する必要がありライセンス費用が高額でした。SaaS型では利用するユーザー数などに応じて低コストで利用し始められます。

インポート、エクスポート

メタデータはさまざまな基盤で再利用されるものです。しかし実際にはエクスポートに対応していないデータカタログ製品も多く存在します。COMETA®はCSVファイルによるメタデータのインポートおよびエクスポートが可能であり、他の基盤で再利用するための安心感を提供します。

たとえば、業務部門内でTROCCO®とCOMETA®を使用してメタデータをマスターとして作成・管理し、IT部門で利用している他のデータカタログサービスに取り込めます。これにより、利用者属性に合ったサービスを利用しながらメタデータの一元管理ができます。

まとめ

COMETA®はSaaS(Software as a Service)型のデータカタログサービスであり、アカウントを作成するだけですぐに利用を開始できます。インフラの構築や管理に時間を割く必要がないため、迅速に導入できてシステムの運用が不要な点が魅力です。

COMETA®は、多くのデータカタログ製品・サービスの中でも、業務部門内でのデータ連携やデータ活用を高い生産性で実行できる点で意義があります。また、直感的な操作ができるユーザーインターフェースがあり、エンジニアでなくても使い勝手が良く、学習コストが低いこともメリットです。これにより、組織全体でのメタデータ管理と活用が促進され、ビジネスの成長に貢献することが期待されます。

TROCCO®との連携やメタデータのインポート・エクスポート機能により、柔軟かつ効率的なメタデータ管理が実現します。データリネージ情報の取得も可能であり、データの流れを把握しやすくすることで、データの正確性と信頼性が向上します。

データの民主化を促進し、全社的なデータ駆動型の意思決定を支援するパーツとなりうるCOMETA®は、業務部門からIT部門まで幅広いユーザーにとって価値のあるサービスといえます。