データマッチング

その 「ゴールデンレコード」 実は違った・・・? Part 2:ゴールデンレコードとは何か、どのように機能するのか?


前回の記事(https://c-datalab.com/ja/blog/idr-matching_20240126)では、ゴールデンレコードは通常、マスターデ ータ管理(MDM)システムにおけるエンティティ(顧客など)の「ベストビュー」であることを説明しました。

 

CDLブログ第19号_GoldenRecord-1
ゴールデンレコード

 

多くの MDM システムはゴールデン・レコードを中核に据えています。これは、下流のすべてのユースケースを満たすように構築され、 維持されることを意図としているからです。 このビューは通常、「優先順位 」または 「存続 」ルールと呼ばれる "IF-THEN-ELSE "ステートメントによる意思決定ツリーを使用して、1 つまたは複数のソースから構築されます(後者の用語は、システム内で繰り広げられる映画、ハンガー・ゲームのデータ版のイメージを呼び起こすため、我々はこれを特に嫌います!)。

CDLブログ第19号_図2_hungergames

出典:Lionsgate社より(hungergames.fandom.com)

1990 年代のデータ・ウェアハウス手法の後継として、ゴールデンレコード・ベースの MDM アプローチは非常に便利です:

- すべてのデータを単一の一貫性のある場所に移動させます;
- 実績の優先順位付け、つまり特定のデータソースを他のデータソースよりも相対的に重視することで、ゴールデンレコード が「最適な」インプットに基づくようにします;
- すべての下流システムが飲める(あるいは飲まなければならない)単一の泉を提供します;
- 商用 MDM プラットフォームが作成・管理する上で非常に便利です;
- 上層部*に売り込むために、すっきりとしたシンプルなコンセプトになっています。

*「顧客データ戦略とは何か」という質問に対して、上層部は常に完結でシンプルな答えを求めています。

CDLブログ第19号_図3_ゴールデンレコードの効果

ゴールデンレコードは、上層部がこのような顔をしないようにするのに効果的です。

ゴールデンレコードは(どのような名称であれ)、現在使用されている大多数の MDM システムの中心的存在です。あるシステム がデータの 「360°ビュー 」を宣伝している場合、それはゴールデンレコードパラダイムを使って構築されている可能性が極めて高いです。

前述したように、ソースレコードから統一されたベストビュー(ゴールデンレコード)への移行は、一連のルールの実行に基づいて行 われます。 これらのルールは多くの場合、以下のような要素を考慮しています:

• データの経過年数(最新性)
• 請求書発行システム 対 ウェブ調査 対 商用マーケティングリストなど、出所に基づく情報源の質(スコアによる場合も あります)
• 裏付け、情報源の数および量(例えば、ある人物の住所が 4 つの情報源のうち 3 つで同じ)。これは「複数化」とも 呼ばれることがあります。
• 特定データの潜在的変動性(変化する可能性はどの程度か?)
• データは単一の値か、それとも多値か?(例:姓は複数あっても生年月日は 1 つしかない)
• 情報源は自己参照的か(例:情報源 A は情報源 B から作成されたものであり、実際には同じデータである)。

前回の記事(https://c-datalab.com/ja/blog/idr-matching_20240126)で紹介したケイティ・アレンを覚えていらっしゃいますか? 彼女は最近、ExCorp 社の CEO に就任したばかりでした。

CDLブログ_図4_ケイティ・アレンについて
我々は"ケイティ・アレン"について何を知っているのか?

A社は、カスタマーサポートチームを通じて ExCorp 社自身から「ケイティ・アレン」のデータを取得しており、また昨年購入したマーケ ティングファイルから WhyCo 社(ケイティ・アレンの前職)の「キャサリン・アレン」の情報も得ています。 つまり、当社の IDR(デー タマッチング)システムによると、同一人物である可能性が高く、それぞれ異なる電子メールアドレスが含まれているレコードがあるの です。 我々は B2B ビジネスにおいて、お客様の主な仕事用のメールアドレスにマーケティングを行いたいと思っています。 片方のメ ールアドレスは KatherineAllen@ExCorp.com、もう一方は KAllen77@gmail.com。優先順位のルールでは、Gmail のよ うな一般的なドメインは避け、最良のビューとなる ExCorp.com のメールアドレスを残すようにしています。

CDLブログ_図5_Eメールの優先ルール
優先ルールについては、特定の情報源を他の情報源よりも優先します。

 

しかし、2 つのアドレスが info@ExCorp.com と Katy@AllenFamily.me だったらどうでしょう?前者は企業ですが一般的な Eメールのドロップボックスであり、後者は個人的ですが直接的なものである可能性が高いです(しかもカスタムドメインなので「登録アドレス」である可能性は低い)。 適切に実装すれば、優先順位ルールは非常に洗練されたものになります。

ゴールデン・レコードに話を戻しましょう。MDM システムの優先順位ルールによって、すべての下流システムで使用できる「ケイティ・ア レン」のレコードが構築されました。 ゴールデンレコードの真価が発揮されるのはここからです。データベース全体が標準的な形になっ ており、MDM システムが公開する標準的なインターフェイスからも利用できる状態になりました。 これによりシステムはデータの自動 販売機のようなものになりました(実際、MDM 設計者の中にはこの機能を 「フルフィルメント・データベース 」と呼ぶ人もいます)。

 

CDLブログ第19号_図6_ MDMシステム
MDMシステムはゴールデンレコードを「販売」します。

 

消費するシステム(例えばマーケティングチーム)が、すべての対象者のゴールデンレコードを取ることはまれですが(前代未聞では ない)、そうすることはおそらく少し無駄であり、個人情報保護とデータ最小化が騒がれるのこの時代には、不適切であることも多い と思われます。 ➢ コンセント(同意)に関する今後の記事をお楽しみに。 我々の 「選び放題の下流データ」は再利用可能なフォーマットに整えられたゴールデンレコード・データをベースにしています。

CDLブログ第19号_図7_選び放題の下流データ

 

今後は、より洗練されたイベントに基づく JSON をベースとした Pub/Sub フィードについてお話できれば良いのですが......これらの ほとんどは、CSV テキストファイルや Excel スプレッドシートに落とし込まれ、その後、下流チームの日課システムにアップロードされるのが現状です。

CDLブログ第19号_図8_CSVファイル
CSVファイルのために・・・あれだけの作業が

 

そのような旧来のファイルベースのフィードは魅力的ではないかもしれませんが、ゴールデンレコードは少なくともそのコンセプトをシンプ ルにしています:フルフィルメント・データベース(ゴールデンレコードが存在する)で利用可能な全体からデータのサブセットを選択 し、それをファイルに入れて受信者に送ります。 このあまり魅力的でないゴールデン・レコードは、最初の記事で言及した約束を多かれ少なかれ果たしています。つまり、すべての業務データを統合ビューにまとめ、データ・チームの 「顧客 」である複数の下流ユースケースに価値を提供しているのです。

CDLブログ第19号_図9_ゴールデンレコード消費チーム
ゴールデンレコードが消費チームへ

この 「最終目的地 」となる CSV/Excel ファイルの面白いところは、あくまでも下流の部署/チーム/事業体にとって有用な最終 出力であるという点です。幅広く考えれば、「ゴールデンレコード」にできることはもっとたくさんあります。それについては、次回の記事 で詳しく紹介する予定です。

最後に、データ・スチュワードシップとガバナンスの側面について触れておきましょう。ゴールデン・データ体制を構築するということは、デ ータ・チームによってデータの供給と充足のベクトルが制御され、さらには強制されることを意味します。これは平たく言えば、CDO (最高データ責任者)がデータのすべてのユーザーが、同時に同じビューを得られる保証ができるようになることを意味します。 一 貫性、トレーサビリティ、監査を組み込むことができるのです。先ほどの比喩を使えば、全員がデータ・チームの自動販売機から購入したもので食事を取らなければならないということです。

CDLブログ第19号_図10_ゴールデンレコードは一貫性を強制する
ゴールデンレコードは一貫性を強制することができます。

 

次回は、少し回り道をして、MDM データの 「真実 」とは何なのか、その裏側を見てみましょう。

ネタバレ:これ、言うほど単純ではないんです!

 

著者のご紹介

ウオリック・マセウス / ジョン・ニコディモ 共著 

warwick

ウオリック・マセウス(Warwick Matthews)  
最高技術責任者 最高データ責任者

複雑なグローバルデータ、多言語MDM、アイデンティティ解決、「データサプライチェーン」システムの設計、構築、管理において15年以上の専門知識を有し、最高クラスの新システムの構築やサードパーティプラットフォームの統合に従事。 また、最近では大手企業の同意・プライバシー体制の構築にも携わっている。  

米国、カナダ、オーストラリア、日本でデータチームを率いた経験があり、 最近では、ロブロー・カンパニーズ・リミテッド(カナダ最大の小売グループ)および米国ナショナル・フットボール・リーグ(NFL)のアイデンティティ・データチームのリーダーとして従事。  

アジア言語におけるビジネスIDデータ検証、言語間のヒューリスティック翻字解析、非構造化データのキュレーション、ビジネスから地理のIDデータ検証など、いくつかの分野における特許の共同保有者でもある。

 

1574626860886

ジョン ・ ニコディモ ( John Nicodemo )
NFLシニアコンサルタント

アメリカ国内でも、最も優れたデータ・リーダーの一人であり、アメリカ、カナダ、そして世界各地のデータ・コンテンツ・チームのマネジメントに従事。  米国ダン・アンド・ブラッドストリートをはじめロブロー・カンパニーズ・リミテッド(カナダ最大の小売グループ)など、大手企業でデータ管理チームを率い、世界トップクラスの企業からグローバルデータ戦略やソリューションに関する依頼を受ける。  現在は、米国ナショナル・フットボール・リーグ(NFL)のシニアコンサルタントとしてファン・インテリジェンスとデータ共有のエコシステムを全面的に刷新する際のアドバイザーとして従事している。

©️Copyright Compliance Data Lab, Ltd. All rights reserved.        
掲載内容の無断転載を禁じます。

 

Similar posts

ブログ購読申込

コンプライアンス・データラボ代表取締役の山崎博史を含む国内外のコンプライアンス専門家やデータマネジメントのスペシャリストが、お客様のコンプライアンス管理にまつわる国内外の最新情報やトレンド、重要な問題を解説します。当ブログを通じて最新のベストプラクティスやガイドラインの情報も提供します。
 
ブログの購読をご希望の方は下記のリンクより、フォームに必要事項を入力してご登録ください。
配信は毎週金曜日を予定しています。購読料は無料です。