データマッチング

その ゴールデンレコード、 実は違った?  Part 4 「ゴールデンレコードの限界」


ゴールデンレコードの限界

今回は、MDMとゴールデンレコードに関するシリーズ「そのゴールデンレコード、実は違った?」の4回目です。前回までの3つの記事は以下の通りです:

1. エンティティ・データ - MDM(マスターデータマネジメント)を行う理由

2. ゴールデンレコードとは何か、どのように機能するのか?

3. データの中の真実

前回の記事では、MDMデータについて、そしてゴールデンレコードが良くも悪くも多くのデータ管理体制にとって重要であることについて幅広く論じてきました。ゴールデンレコードは、組織におけるデータ処理に一貫性を与え、1か所で必要なものがすべて揃う、MDM「ワン・ストップ・ショップ」を実現するものです。

しかし、ゴールデンレコードにはいくつかの弱点や欠点があります。ゴールデンレコードのパラダイムの基本的なものもあれば、多くのMDMシステムでゴールデンレコードが使用されている特殊な方法に関するものもあります。

 



"ゴールデンレコード "を構成する物の運用上の定義

議論を始める前に、"ゴールデンレコード "を構成する物の、運用上の定義から見てみましょう:

ゴールデンレコードパラダイムに基づくMDMシステムとは、 特定のタイプのすべてのデータ(例えば顧客データ)がロードされ、マスタリングされ、単一のビューに抽出され、そのMDMシステムからそのデータの全下流ユーザーに使用されるものです。

      • ゴールデンレコードは「すべてを支配する1つのレコード」であるという原則に基づいています。これは、すべてのユースケースに対して同時に単一の真実のバージョンを提供することを意味しています。

      • この原則は、フィルレートや客観的な真実の概念が「正確性」と「完全性」を測定するために使用される実証主義的な世界観の反映であるため、MDMシステムの全体的な価値を示す主要な定性的尺度となっています。

      • 非時間的、すなわち、ゴールデンレコードは、時間の経過に基づいて再結合するメカニズムを持っておらず、多くの場合、異なるソース(または単一のソースからの異なるデータ)の周期性、年齢、または減衰率を無視してしまいます。ただし、通常は、最初のETL優先順位ルールで、古いソースレコードよりも新しいソースレコードが優先されます。

      • ゴールデンレコードは、事前に定義された標準化データモデル(多くの場合、業界ベース)に基づいて構築され、入力データもそのモデルに「適合」するように操作されます。このため、ターゲットにうまくマッピングできない場合、ギャップや未使用のデータが生じることがあります。例えば、リレーショナルMDMシステムには職場、自宅、携帯電話の3つしか収録できない制限があるため、4つ目の電話番号を破棄せざるを得ない場合があります。

 

ゴールデンレコード・ベースのシステム支持者(多くはMDMプラットフォームのベンダー)は、MDMシステムでより洗練された(または少なくともより大きな)エンティティ・データモデルを採用することで、「1つのサイズですべてに適合する」問題を軽減できると主張します。例えば、1人の顧客に対して複数の電子メールアドレスを保存できるようにします。これにより、社内のデータユーザーは、次のような重要な質問に答えることができるようになります。(例えば顧客に関する一貫したビューを必ず必要とする等):

      • 正しい名称は何ですか?

      • 彼らの正確な属性(市場セグメントなど)は何ですか?

      • 彼らにコンタクトするための正しいコミュニケーション手段は何ですか?(例:メールアドレスは?)

これらの下流のユースケースは一般的によく理解されており、ETL中に実行される優先順位ルールは、関連する入力ソースから、ビジネスニーズを満たすために可能な限り最良のビューを生成するデータを選択します。これがゴールデンレコードです。

 



「最良」のビューを構成するものとは

しかし、何が「最良」のビューを構成するのでしょうか?よく理解されたユースケースであっても、少々問題があります。第一に、誰にとってのベストなのか?私たちの組織にはさまざまなチームがあり、経営陣、営業チーム、マーケティングチーム、人事部、オペレーションチーム、カスタマーケアやサポートチームなどが含まれることが一般的です。これらのチームは共通のデータ要件を持つことがありますが、全てが同じではありません。

 

そのため、データモデルに各部門用のバリアントを追加するという選択肢があります。しかし、現実の世界では、顧客が社内の異なるチームごとに異なるビューを提供することはありません。ですから、単一のベスト・ビューに戻る必要があるということですよね?

CDLブログ第27号_図1_ゴールデンレコード(ゴールデンリング)すべてを支配する1つの(ゴールデンレコード)リング?


実はそうでもないのです。とはいえ、ゴールデンレコードを持つほとんどのMDMシステムは、まさにそうなっています。

MDMにおいて一貫性は王です(実際、一貫性はすべてのMDMシステムのコアコンピテンシーです)。異なるユースケースに対する異なるビューは、組織全体で一貫性のない顧客ビューのリスクを生み出します。そのため、MDMシステムにおける一般的な解決策は、別の方向、つまり1つのサイズですべてのフルフィルメントデータベースを過剰に補うことになるのです。

 

皮肉なことに、特定のユースケースに最適化されていないデータモデルの副作用としてよく観察されるのは、パラレルソーシングやサイドファイルの拡散です。つまり、データ・チームのMDMシステムを回避して「不正な」行動をとることがあります。このような事例はよくあるものです。

CDLブログ第27号_図2_MDMプロセス_ゴールデンレコードMDMプロセスやゴールデン・レコードを 「回避」するチームもある

多くの組織では、MDMシステムは一部のチームによって効率的かつ効果的に使用されていますが、他のチームは、MDMシステムの利用を拒否したり、裏でこっそりと使い慣れた独自のものを利用しています。このような事例はよく見られますね。

 

オーバーフィッティングはゴールデンレコードでよく見られる問題で、データが本来の目的を超えて使われることがあります。ゴールデンレコードが存在するフルフィルメント・データベースがデータの「ベスト・ビュー」とされても、それが組織全体で利用されるべきであるとは限りません。良識あるデータチームが陥りやすい罠は、すべてのダウンストリームシステムが同じ場所にデータを取得することを強制すること(良いこと)と、すべてのユースケースに単一のデータセットを提供することを混同することです。

 

MDMシステムが(フルフィルメント・データベースを介して)ゴールデンレコード・データセットだけを内部顧客に提供し、それ以外はすべて消費されない内部配管として扱う場合、このような事態は避けられなくなります。この問題における一般的な例は、生のソースデータの代わりにゴールデンレコードをIDR(データマッチングとクラスタリング)システムに供給することです。



ゴールデンレコードに関連する「時間」の課題

また、時間もゴールデン・レコードのもう一つの重要な制約の一つです。「データの鮮度」(どうすれば新鮮なデータを素早くシステムに取り込めるか)や「レコードの古さ」(いつデータが古すぎて使えなくなるか)という課題は全てのデータシステムに共通する問題ですが、組織のMDMシステムにおいても重要です。盲点がないかどうか、組織のMDMシステムを定期的にチェックすることが重要です。

CDLブログ第27号_図3_ゴールデンレコードと時間ゴールデンレコードにとって時間は挑戦である

 

今日、私たちはゴールデンレコードに関連する「時間」の課題について、進化とマルチスピードの2つの具体的な方法に注目しています。

1. 進化-
組織のユースケースは時間の経過とともに変化するのは避けられません。 MDMフローを再接続して最終製品(フルフィルメント・データベースとゴールデンレコード・データ)を調整するのは複雑で時間がかかります。ゴールデンレコードは固定ビューであり、新しい要件に追いついていない場合、MDMシステム全体を置き換える必要があります。

2. マルチスピード-
異なるソースからのデータセットは異なる速度で古くなる可能性があります。これは、ソースETLからMDMデスティネーション(ゴールデンレコード)への一方向のデータフローがある場合、現実的なとなります。

つまり、ソースAからのEメールアドレスはソースBからのデータよりも有効と考えられるかもしれませんが、同時にソースBよりも揮発性が高く、老朽化が早いかもしれません。現時点ではソースAの方が優れていますが、12カ月後にはソースBのメールアドレスの方が到達する可能性が高くなります。

しかし、ソースAのデータはすでにゴールデンレコードに組み込まれているため、ソースでの更新がなければ、ゴールデンレコードの構成を再評価できるシステムはほとんどありません。オムレツを作りなおすことはできない – 要するに後戻りができなくなるのです。

 


 

アイデンティティ(データエンティティが誰であるか、何であるか)を、「完璧さからの距離」より良いデータで個人や組織に対する見方を改善する必要がある )ではなく、「成果」今あるデータでどれだけ効果的に目標を達成 できるか)と考えれば、別の道を歩むことができるかもしれません。

私たちが実際に持っているデータから有用な成果を構築することに焦点を当てることは、私たちが「目的に適合したアイデンティティ」(F4P ID:fit for purpose identity)と呼んでいるものです。次回、このシリーズの最終回で説明します。

 

著者のご紹介

ウオリック・マセウス / ジョン・ニコディモ 共著 

warwick

ウオリック・マセウス(Warwick Matthews)  
最高技術責任者 最高データ責任者

複雑なグローバルデータ、多言語MDM、アイデンティティ解決、「データサプライチェーン」システムの設計、構築、管理において15年以上の専門知識を有し、最高クラスの新システムの構築やサードパーティプラットフォームの統合に従事。 また、最近では大手企業の同意・プライバシー体制の構築にも携わっている。  

米国、カナダ、オーストラリア、日本でデータチームを率いた経験があり、 最近では、ロブロー・カンパニーズ・リミテッド(カナダ最大の小売グループ)および米国ナショナル・フットボール・リーグ(NFL)のアイデンティティ・データチームのリーダーとして従事。  

アジア言語におけるビジネスIDデータ検証、言語間のヒューリスティック翻字解析、非構造化データのキュレーション、ビジネスから地理のIDデータ検証など、いくつかの分野における特許の共同保有者でもある。

 

1574626860886

ジョン ・ ニコディモ ( John Nicodemo )
NFLシニアコンサルタント

アメリカ国内でも、最も優れたデータ・リーダーの一人であり、アメリカ、カナダ、そして世界各地のデータ・コンテンツ・チームのマネジメントに従事。  米国ダン・アンド・ブラッドストリートをはじめロブロー・カンパニーズ・リミテッド(カナダ最大の小売グループ)など、大手企業でデータ管理チームを率い、世界トップクラスの企業からグローバルデータ戦略やソリューションに関する依頼を受ける。  現在は、米国ナショナル・フットボール・リーグ(NFL)のシニアコンサルタントとしてファン・インテリジェンスとデータ共有のエコシステムを全面的に刷新する際のアドバイザーとして従事している。

©️Copyright Compliance Data Lab, Ltd. All rights reserved.        
掲載内容の無断転載を禁じます。

 

Similar posts

ブログ購読申込

コンプライアンス・データラボ代表取締役の山崎博史を含む国内外のコンプライアンス専門家やデータマネジメントのスペシャリストが、お客様のコンプライアンス管理にまつわる国内外の最新情報やトレンド、重要な問題を解説します。当ブログを通じて最新のベストプラクティスやガイドラインの情報も提供します。
 
ブログの購読をご希望の方は下記のリンクより、フォームに必要事項を入力してご登録ください。
配信は毎週金曜日を予定しています。購読料は無料です。