データ利活用の推進が行われている昨今、多種多様な企業が散見されているデータの統合を目的としたデータ基盤を構築し、データ利活用できる環境を整備しています。
一方、データ基盤を統合したのは良いけれど、どのようなデータが入っているのか探せず、データ利活用につながらないといった課題が生まれています。
そのような状況の中、データの意味の管理をする「メタデータ管理」が注目を集めています。メタデータの管理・整備の継続をすることでデータ利活用を促すことができます。
本記事では、このメタデータについて、大きく分けて3つのことを説明します。
1つ目は、そもそもメタデータとは何か、2つ目は、メタデータ管理をどのように進めたらよいか、3つ目は、継続してメタデータ管理を続けるための方法です。
日頃データ利活用に携わっており、メタデータ管理に取り組みたいと思っている方々に、本記事を参考にしていただけると幸いです。
この記事の著者:
吉村武 氏
ヤフー株式会社においてエンジニアリングの業務とプロダクトマネジメント業務を担当。2018年より子会社PayPayカード株式会社にて、データマネジメントを目的とする組織、CDO室の立上げを行う。現在はエンターテインメント企業にてデータマネジメントを推進している。
メタデータとは
メタデータとは「データに関するデータ」と定義されています。
「データに関するデータ」というのは表現としてピンとこない方は、データ利活用に必要なデータに関する周辺情報と覚えておけば良いでしょう。
具体的に「データに関するデータ」とは何なのか、まずは、写真のデータを例に挙げ説明します。
写真にはExifという規格に沿った写真の撮影情報データが付加されています。そして、写真というデータに対して、Exifという規格に沿って保持しているデータをメタデータと呼びます。
写真のメタデータであるExif情報はWindowsでもMacでもファイルから確認することができます。
次に、データ基盤で管理されている顧客情報を管理しているテーブルを例に、データに関するメタデータについて説明します。
たとえば以下の画像のようなデータです。メタデータが無い時はリレーショナルデータベース(RDB)の情報そのままです。メタデータが無いと何を表しているデータなのかわからず、どのように利活用すればいいか判断できません。
これらのデータの意味や背景情報を示す情報がデータに関するメタデータとなります。
具体的には、論理名であったり、コード値のマッピング情報であったり、どのような時にデータが増えるのかといったデータを解説する情報や、秘匿性レベルといった取り扱うための条件が書かれています。
メタデータを付加することで、メタデータが無かった時に生じた以下のような疑問を解決することができます。
- pref_codeに対応する県はどこなんだろう?
- start_ymdは何が開始された日が入っているの?
- end_ymdのNULLはどういう時に起こるのだろう?
- mail_addressは持ち出し可能な情報なのだろうか?
これらのように、データはメタデータがあることによってその意味を理解することが可能になります。
メタデータの種類
テーブルデータのようなデータに関するメタデータはExifのような決められたフォーマットがあるわけではなく、意味や背景情報を示すものであれば全てメタデータと呼ばれます。
データマネジメント協会(DAMA)が発行するデータマネジメント知識体系である「DMBOK2」では、メタデータは3つに分類されています。
- ビジネスメタデータ
- テクニカルメタデータ
- オペレーショナルメタデータ
それぞれ詳しく説明していきます。
ビジネスメタデータ
ビジネスメタデータはビジネス側から送出される情報で、データの内容、状態、詳細を表す情報です。
以下のような業務フローと連携して生まれる情報はビジネスメタデータに分類されます。
- データセット、テーブルおよびカラムの名称と説明
- 業務ルール、加工ルール、計算方法
- データモデル
- データの更新されるタイミング
- データリネージ
- データのセキュリティレベル
- データ利用上の注意
テクニカルメタデータ
テクニカルメタデータはエンジニア側から送出される情報で、データの技術的詳細、格納するシステム、プロセスに関する情報です。
テーブルを作成する時に記述したテーブルに対する制約もテクニカルメタデータとなります。
具体的には以下の情報がテクニカルメタデータに分類されます。
- 物理データベーステーブルとカラムの名称
- カラムの型、文字数
- アクセス権
- データのCRUD
- キー、インデックス情報
- ETLジョブの詳細
- テーブル更新サイクル
- リカバリーとバックアップのルール
オペレーショナルメタデータ
オペレーショナルメタデータは主にシステム運用側から送出される情報で、データの処理とアクセスの詳細に関する情報です。
以下のような、データ基盤運用のために収集しているデータはオペレーショナルメタデータとなります。
- バッチプログラムのジョブ実行ログ
- データの抽出とその結果
- オーディットログ
- エラーログ
- クエリの実行ログ
- バッチとバージョン管理の計画と実行
- バックアップ、保存、実行日付
- ストレージ容量の増減
- データの保持ルール
- 廃棄規定
なぜメタデータの管理が必要なのか
ここまでの説明でメタデータがどのようなものか理解いただけたでしょう。しかし、なぜメタデータを管理しなければいけないのでしょうか。
メタデータが無いとデータ利活用はできないということは先ほどの例でイメージできたと思います。しかし、データ基盤に関するメタデータは無数にあり、各担当者が必要に応じて管理している状態では、必要としている人が必要としているタイミングでメタデータを取り出すことができません。
集めたメタデータは、ビジネスで活用しやすいように管理することで本来の力を発揮するのです。
いつから組織的な管理をはじめたらよいか
メタデータ管理の方法はデータ利活用している組織の規模によっても変わります。
どの分野においても言えることですが、管理を強化するとスピードが犠牲になる面もあるため、組織の規模に応じて管理の方法を考える必要があります。
組織の特定の人だけが領域ごとのデータを活用しているような立ち上げ時期では、組織的な管理ではなく担当者が手元のテーブル定義書に書き込んだメタデータ管理帳が適切かもしれません。
組織的な管理をするひとつの基準としては、データ利活用を目的としたチームが発足されたくらいのタイミングが適切かと考えられます。
チーム化されて担当領域の引継ぎが発生するときや、同じデータを複数人が活用するときになると、共通した統制に従って管理されたメタデータが有効になってきます。
メタデータ管理を始める基本ステップ
メタデータ管理の必要性は理解いただけたでしょうか。
ここからは組織がメタデータを管理の取り組みを始めるときに、どのように進めて行けばよいのかを、順を追って説明します。
現状評価をしよう
何事も始める前には、現状調査から始まります。
うちの会社はメタデータ管理なんてやっていないから、調査しても何も出てこないと思った人もいらっしゃるかなと思いますが、意外とそんなことはありません。
事業計数の担当者が基幹システムから出力させたCSVデータに対して、手元のExcelにデータの意味をメモしているということはよくある話です。データ利活用するためにメタデータがどのように管理されているのかをまず調査して評価してみましょう。
目指す状態を考えよう
現状調査が終わったら、自社が中長期的に目標とする状態を考えましょう。中長期というのは、おおよそ3年ぐらいをイメージすると良いです。
3年後のイメージが固まると、逆算して1年後のマイルストーンを決めることができ、目先1年間の行動計画を作ることができます。
目指す状態を考えるときはメタデータ管理者としての視点を持ちましょう。網羅的に欠損なく集めるという収集に関する点と、メタデータ利用者として集めたメタデータを探しやすくするという点をふまえて考えましょう。
プロジェクトチームを作って進めよう
ステップ2で目先1年間の行動計画を作れましたね。次は計画を実際に進めるために、プロジェクトチームを作って進めましょう。
メタデータ管理はメタデータを保持している人たち、具体的にはデータを発生させている部門の担当者、データを分析している担当者、システム開発担当者、システム運用担当者と広範囲の関係者と連携を取って進める必要があります。
これらのステークホルダーとプロジェクト体制を築きましょう。
メタデータ管理をするとマクロな視点ではデータ利活用が進むかもしれません。
しかし、担当者レベルでは手元のメタデータに関する事項が書かれた資料、メタデータ管理帳で事足りていることも多く、メタデータ管理に協力する意義を感じてもらいにくい側面があります。
各担当者には、メタデータ管理プロジェクトの目的を丁寧に説明してメタデータ管理の重要性を理解してもらい、プロジェクトチームとしての体制を作りに協力してもらえるようにすることが大切です。
メタデータを管理しよう
各種関係者と連携を取ってメタデータを集めたら、集めたメタデータを利用者が利用しやすいように管理しましょう。
メタデータ管理は、メタデータを管理するデータベースであるメタデータリポジトリやメタデータ管理システムであるデータカタログを用いることが一般的です。
管理する方法はメタデータの量やデータ利活用したい人の数によって変わります。そのため、メタデータ管理には絶対にデータカタログが必要だということはありません。
データの量も少なく、データ利用者が5名程度である場合は、ドキュメント管理ツール(Notionやコンフル)や表計算ソフト(Excelやスプレッドシート)で管理のでも要件を満たしていることもあるでしょう。
一方、データ量が多くデータ利用者が50名を超えるような場合は、データカタログツールを使うことをお勧めします。
いずれにしても、メタデータを管理したいと考えている担当者が、組織の現状をふまえてメタデータを管理する方法を考えて決めることが重要です。
周知しよう
メタデータ管理は管理することが目的ではなく、管理されたメタデータがデータ利活用に使われて、ビジネス成果に間接的に貢献することが目的です。
メタデータをどのように管理にしているか、また、どのようにデータを探せばいいのかををデータ利用者に周知しましょう。
ただし、データ利用者にデータカタログを周知するタイミングは慎重に考えましょう。
管理のための準備が完了しいない状態でも一部が整った時点で周知し、使ってもらいながらビジネスメタデータを増やしていく方法もあります。しかし、データ利用者にとっての期待値の最低限はすでに手元にあるメタデータ管理帳なので、メタデータ管理帳未満の情報しかなければ以降使われることはありません。
担当者が日々使っているメタデータ管理帳と同等の要件を満たしたタイミングで周知するのが良いでしょう。
一度期待値から外れると使ってもらえなくなる傾向にあります。メタデータ管理の方法やデータカタログについて周知するよくタイミングは考える必要があります。
継続的なメタデータの管理術
メタデータ管理は、管理体制を立ち上げて終わりではなく、メタデータの最新性を保てるようにしなければ意味を成しません。
「5.周知しよう」で説明した通り、利用者の期待値を満たす状態を維持し続けなければメタデータを使ってもらえなくなります。
本章では、データ利活用を推進するための最後のポイントとして、継続してメタデータを管理し続けるための方法について説明します。
整備し続ける体制を整える
構築したデータカタログは構築がゴールではなく、最新性を保つ必要があります。
本記事では、最新性を保つのが特に難しい、ビジネスメタデータの更新体制について紹介します。
中央管理体制
1つ目はデータ基盤管理部門が管理担当者になり、データカタログを整備する体制です。
データ基盤部門がデータマネジメント機能を兼ねていることが多く、メタデータ管理についてプロジェクトオーナーを担っているケースが多いです。
メタデータ管理に関して一番課題意識があり、どうしたらメタデータ管理が上手くいくのか理解しているのがデータ基盤部門です。そのため、その部門がデータカタログ運用のガバナンスを担う体制となります。
ただし、この体制ではガバナンスを効かせることはできますが、運用に対するコストが高い体制となります。
集合知体制
2つ目は、ビジネスメタデータを実際に使うデータ利用部門をメタデータ管理者にする体制です。
データ利用部門はビジネスメタデータが無いと仕事が進まないので、積極的にデータ発生部門に問い合わせをします。つまり、データ利用部門は、一番必要かつ最新であるメタデータを保持する担当者だといえます。
その担当者がデータカタログに対して更新をしていけば良いのですが、データ利用者はメタデータ管理帳を持っていることが多く、集合知をデータカタログに転記するメリットを感じない人もいます。そのため、担当者によって対応が異なるなど、ガバナンス面に課題が生まれます。
データカタログの利用が浸透し、データ利用者がメタデータ管理帳ではなくデータカタログを1次ソースとして利用されている状態であれば、集合知体制で上手くメタデータが管理されるでしょう。
データカタログツールを使う
データ利活用が成熟してくると、多種多様なメタデータを使いたくなるケースが出てきます。扱う種類が増えると全て手動で整備していくのも苦しくなってくるので、データカタログツールが生きてきます。
特にシステムメタデータ、オペレーショナルメタデータはシステムから自動で収集可能なので、データカタログツールを導入することで管理が容易になります。
継続的にメタデータを管理し続けるためにはツールは強い味方になってくれます。
メタデータが整備され利用されるためにはビジネスメタデータの量と質を保つ必要があるので、ツールを入れれば管理され続けるとは思わずに、整備し続ける体制面とセットで考えることが重要です。
まとめ
本記事ではメタデータ”管理術”として、どのようなステップでメタデータ管理プロジェクトを進めて行けばよいのか、管理された状態を維持するためにはどのようなことを行えば良いのかを紹介しました。
データ利活用を進めるためにはメタデータは強い武器になりますが、管理し続けるのは一筋縄ではいきません。これからメタデータ管理をしたいと考えている方に、今回紹介させていただいた内容がお役に立てれば幸いです。