データマッチング

MDMとIDR(データマッチング):完璧を追い求めるのはやめよう!


マスターデータ管理(MDM)では、データの完全性を追い求める傾向があり、実際、これはMDMプロジェクトやシステムのKPIとして使われることが多くあります。 

これは本質的に「実証主義的」な世界観から来るもので、私たちはある人物や他の存在についてできる限りのことを発見しようとします。言い換えれば、「真実はそこにある – あとは見つけるだけ」なのです。 

CDLブログ7号_図1_実証主義的モデル

図1:実証主義的モデルは、物事についての客観的真実を見つけようとします 

 この従来のアプローチとは別の方法もあります。MDMに対する非実証主義的なアプローチについては、今後のブログ記事のテーマとして取り上げる予定です。 

MDMシステムの重要なコンポーネントの1つとして、ゴールデンレコードがあります。ゴールデンレコードは、利用可能な最も信頼できるソースからの最も完全なデータポイントのセットを表します。 

CDLブログ7号_図2_ゴールデンレコード

図2:「ゴールデン レコード」は、多くの MDM システムの中心です 

実証主義の世界では、私たちは完全性を追い求め、ゴールデンレコードは私たちの最善の試みの成果を表しています。「ポストゴールデンレコードの世界におけるMDM」については、また次のブログ記事で取り上げることにしたいと思いますが、いつになったら、自分たちのベストビューが十分だとわかるのだろうか?つまり、どれだけのデータがあれば十分なのか?という疑問が残ります。 

少しのデータと少しの創造的思考を使って何ができるかを見て、間接的にアプローチしてみましょう。 

一般的に、2つのレコード間の名前のみの一致は、アイデンティティレゾリューション(IDR)システム(いわゆるマッチングシステム)がMDM内でそれらのデータをまとめるのに十分であるとは考えられていません。では、他に選択肢はあるのでしょうか?通常は「より多くのデータを取得」したがるものです。 

CDLブログ7号_図3_IDRとMDMに必要なデータ量

図3:IDRとMDMに必要なデータ量はどのくらい? 

しかし、枠にとらわれずに少し考えてみましょう。例えば、ある人とその同僚のフライト予約です。この例では、それぞれの人の名前しかわからないかもしれませんが、2人が一緒にいるのです。これによって推定が可能になります。 

以下を見てみましょう。ここでは“田中真矢子“という名前を追ってみたいと思います: 

CDLブログ7号_図4_tanakmayako-1

図4:似たような名前ですが、他の情報がありません…信頼度の高いマッチ(一致度)としては不十分です

郊外の在住者情報、スポーツイベントの観客、飛行機の乗客、会社の従業員、そして訪問先への記録としての情報があったとします。名前だけの共通点ではこれらのいずれかを確信を持って結びつける(あるいは除外する)には情報が不足しているのは確かです。 

しかし、“田中真矢子“と合わせて他の名前も考慮したらどうなるのでしょう? 

CDLブログ7号_図5_tanakamayako2

図5:名前だけのデータですが、追加データにより大きな違いが見られます 

では、確率を考えてみましょう。昨日、A社(オレンジ色の円で囲んだビルの絵)で会った田中真矢子 とクリス・ジョーンズが同一人物である可能性はどれくらいでしょうか?もっと論理的に言えば、2つの異なる文脈で一緒に登場するこの2人の名前が同一人物でない確率はどうでしょう? 

勤務先、フライト情報、そしてロンドンでのミーティング(赤い円で囲んだビルの絵)で登場する田中真矢子 / M・TANAKA / タナカ・マヤコ と渡辺裕之 / H・WATANABE / ヒロ・ワタナベ。 赤い円の打合せではまた「クリス・ジョーンズ」が登場します。名前しかわからないのですが、同一人物である可能性は高くなります。 

逆に、静岡県のわさび農場の「田中まや子」が渡辺裕之と一緒にロンドンに飛んだ「田中真矢子」と同一人物である可能性は低くなります – あるいは、少なくとも名前が似ている以外、二人を結びつける理由はありません。 

名前だけを使用してつなげたレコードは、もちろん、日付、イベント、住所やその他の情報等もMDMに取り込みます。また前述した他の個人(クリス・ジョーンズと渡辺裕之)とのつながりも取り込まれます。これらの名前を段階的に収集し、つなぎ合わせ、全てのデータを結合する高度なナレッジグラフへと移行することができます。 

CDLブログ7号_図6_プログレッシブナレッジグラフ-1

図6:複数の希薄なデータセットを用いた創造的なアプローチは、洗練された多層的なプログレッシブ・ナレッジグラフへと導くことができます 

初歩的な名前のみ使用したアプローチでは「細部に潜む悪魔」の多くを無視していることを認めなければなりません。しかしながら、MDMに対する構成論的アプローチはあらゆる種類のデータとつながりを重ね合わせることができ、MDMの目標を達成するために非常に説得力のある、そして有用な結果を生み出すことができます。

 

著者のご紹介

warwick

最高技術責任者 兼 最高データ責任者
ウオリック・マセウス(Warwick Matthews)

複雑なグローバルデータ多言語MDM、アイデンティティ解決、「データサプライチェーン」システムの設計、構築、管理において15年以上の専門知識を有し、最高クラスの新システムの構築やサードパーティプラットフォームの統合に従事。 また、最近では大手企業の同意・プライバシー体制の構築にも携わっている

米国、カナダ、オーストラリア日本でデータチームを率いた経験があり、 最近では、ロブロー・カンパニーズ・リミテッド(カナダ最大の小売グルーおよび米国ナショナルフットボール・リーグ(NFL)のアイデンティティデータチームのリーダーとして従事

アジア言語におけるビジネスIDデータ検証言語間のヒューリスティック翻字解析非構造化データのキュレーションビジネスから地理のIDデータ検証などいくつかの分野における特許の共同保有者でもある

©️Copyright Compliance Data Lab, Ltd. All rights reserved.        
掲載内容の無断転載を禁じます。

 

Similar posts

ブログ購読申込

コンプライアンス・データラボ代表取締役の山崎博史を含む国内外のコンプライアンス専門家やデータマネジメントのスペシャリストが、お客様のコンプライアンス管理にまつわる国内外の最新情報やトレンド、重要な問題を解説します。当ブログを通じて最新のベストプラクティスやガイドラインの情報も提供します。
 
ブログの購読をご希望の方は下記のリンクより、フォームに必要事項を入力してご登録ください。
配信は毎週金曜日を予定しています。購読料は無料です。