ー 2000年代・2010年代 — ストレージコストの低下とビッグデータ
AIとサイバーセキュリティの分野における大きな変革については、主要メディア、マーテック系メディア、ITメディアで広く取り上げられています。「ChatGPT」、「Copilot」はほぼ一夜にして身近な言葉となり、AI企業はほぼ毎日のようにニュースに登場しています。確かに、これらは現在の日本および世界中の企業にとって極めて重要なテーマです。
一方、あまり注目されることはありませんが、データ管理(Data Management)の実践においても、並行して急速な進化が起きています。今この時代においては目立たない存在かもしれませんが、ビジネスの成否を左右する重要な要素であることに変わりはありません。
本稿では、データ管理の歴史を概観したうえで、データ管理・サイバーセキュリティ・AIの3者が、避けて通ることのできない形で交差する現在のトレンドについて考察します。
「データ」または「データベース」と呼ばれるものの管理は、過去200年にわたって途切れることなく進歩してきました。一例として、1842年に英国で設立された「クリアリングハウス(決済機関)」があります。これはすべての英国鉄道の取引を追跡するためのものであり、事務員による台帳を使った完全な手作業で運営されていました。これと並行する歴史的な節目として、1890年にハーマン・ホレリスが米国国勢調査局のために開発したパンチカード集計機が挙げられます。これによりプロセスが初めて機械化され、国勢調査の処理期間が8年から3年未満に短縮されました。また、彼が技術を商業化するために設立した会社は、後のIBMです。
さらに後の電子時代初期には、紙または初期の電子フォームを通じて、厳格に管理された方法で、入力されたデータの保存と活用に重点が置かれていました。当時の課題は、標準化された質問に対する人間の回答のばらつきをいかに管理するか、またデータをいかに標準化された使用可能な形式で保存するかということでした。
リレーショナルデータベースにおいては、オラクルが1970年代後半に最初に市場参入し、続いてIBMのDB2が1983年に発売され、1980年代のグローバル標準となりました。その後、マイクロソフトのSQL Server、PostgreSQL、そして1990年代にはMySQLなど他のプレイヤーも市場に参入し、2026年現在においても引き続き主要な役割を担っています。
1990年代後半から2000年代初頭にかけて、「データウェアハウジング」はビジネステクノロジーの重要な柱となりました。これは、バラバラなデータソースを巨大な標準化されたウェアハウスデータベースに集約するもので、主に「トップダウン型」のデータタクソノミーとデータディクショナリー、そして複雑なETL(抽出・変換・格納)ユーティリティを活用していました。当時はSybase(現SAP)、SAP、オラクル、IBMなどの大手企業がこのムーブメントの中心にいました。こうした手法は、現在でも多くの現代的なデータシステムの中核に反映されており、混沌とした状況に一貫性をもたらす資産となる一方で、回避策を増やし続けなければならない、硬直したデータ構造という負債にもなり得ます。
特に参考になる事例として、ある大手銀行で繰り返されたシステム障害(2002年、2011年、2021年)が挙げられます。これらの障害は、他の3行との合併・買収(M&A)に伴い引き継がれた、互換性のない3つのデータおよびITアーキテクチャを統合することが困難であったことに起因すると考えられています。直接的な修正コスト、規制当局からの罰金、および社会的信用の失墜という観点から見ると、この事例は、「硬直的なデータ構造」がもたらす大規模な実害を如実に示すものです。
2000年代には、非常に重要な技術的進歩がいくつか起きました。その中でも特筆すべき点は(あまり語られることはありませんが) 、ストレージコストの大幅な低下です。企業は、保存するデータを慎重に選別しなければならない状況から、望むだけの膨大なデータを、非常に低コストで保存できる状況へと変化しました。これはすべて「クラウド以前」の話です。その後に登場したクラウドが、ストレージコストと運用コストをさらに引き下げました。ストレージコストの低下と計算能力の飛躍的な向上により、ビッグデータの時代が到来したのです。
ビッグデータは2010年代の最大のテックバズワードの一つとなりましたが、その具体的な内容はしばしば誤解されています。ビッグデータとは、従来のデータ管理技術では扱えないほど大規模かつ異種混合のデータセットを指します。このコンセプトは、アナリストのダグ・ラニーが「3つのV」として定義されたことで有名です。すなわち、Volume(データの膨大な規模)、Velocity(データが生成・処理されなければならないスピード)、Variety(構造化されたデータベースレコードから非構造化センサーフィードまでの異種フォーマット)であり、今日でも広く引用されているフレームワークです。
この用語の問題の一つは、データ管理技術が急速に進歩して「ビッグデータ」技術があっという間に主流化し、今日では、大規模データセットを管理できる能力が「当然のもの」として捉えられている点にあります。 これが明確に表れている分野の一つがモノのインターネット(IoT)です。ビジネスと消費者の両方の世界において、センサーなどの収集ポイントから膨大な数の小規模データを集め、使いやすいアプリやサービスとして提供するシステムが今や当たり前となっています。現在ほぼリアルタイムの更新を含む「荷物追跡アプリ」や「天気予報アプリ」はその好例です。
2000年代初頭にはNoSQLが台頭しました。これは、従来のRDBMSプラットフォームに容易に「収まらない」大量の非構造化データを処理する必要性から生まれたものです。この分野には初期段階から導入を進めていた小規模なプレイヤーがいました。現在私たちがよく知るのは、――Google BigTable、Amazon Dynamo、Facebook Cassandra(現在はApacheのオープンソースプロジェクト)、そしてMongoDBです。
2010年代には、「データレイク」のコンセプトが広まりました。データレイクが従来のアプローチと一線を画すのは、上述のETLプロセスにあります。データレイクは、大幅な変換や標準化を必要とせず、データをオリジナルのフォーマットのままで格納できることが期待されています(もっとも、これが実際の運用にどの程度反映されたかは疑問の余地があるものの、本稿の範囲を超えるため詳細には触れません)。実際のところ、データレイクはビッグデータと同様の機能を果たし、「まず保存、変換は後で」というアプローチを日常的なものとするのに大きく貢献しました。
「データレイクネイティブ」を標榜するプラットフォームは多数ありますが、その評価は容易ではありません。半分散型プラットフォームであるSnowflakeが、この分野で際立った存在となっています。
データレイクから派生した概念の一つに、エッジコンピューティングの産物であるエッジデータがあります。これは、データネットワークの境界に位置するシステムが、処理のために中央拠点に送信することなく、ローカルでデータを収集・処理するものです。エッジデータには、中央システムの負荷を軽減し、(適切に管理されれば)末端プロセッサーの信頼性の高い分散ネットワークを構築できるという明確なメリットがあります。その場にいるユーザーに有用なローカル気象レポートを提供しつつ、地域分析のために中央システムにデータをアップロードできる温度センサーはその好例です。
ただし、エッジデータには明らかなリスクも伴います。特に、ネットワークが異なるメーカーのデバイスで構成されている場合には、そのリスクが高まります。例えば、小売業者向けにローカルでレポートを生成する場合、ネットワーク内のすべてのPOS(販売時点情報管理)システムが、データ収集と集計において一貫したルールに従うことが絶対不可欠です。
2020年代にAIの能力と普及、そしてサイバー犯罪の危険性が爆発的に増大したことは言うまでもありません。では、データ管理のベストプラクティスは、このような状況にどのように関わるのでしょうか。
AIがソフトウェア開発に革命をもたらしているように、データ管理にも大きな変革をもたらすことは確実です。現在、私たちは非常に過渡期的な段階にあります。「コパイロット」型のAIフレームワーク(OpenAIのChatGPT、GoogleのGemini、AnthropicのClaudeなど)が、好むと好まざるとにかかわらず、日常的な業務活動において使用する多くのコアシステムやツールに組み込まれつつあります。今では、複雑なデータを取り込んで分かりやすく魅力的に表示するよう、スプレッドシートアプリケーションに平易な言葉で指示することさえできます。この現象は、マイクロソフトが過度に積極的なAI機能の取り込みの一部を見直す決定をするほどまで進んでいます。
これまでに述べてきたことを踏まえると、現在私たちは、AIアシスタントに新しいデータセットを既存の環境に取り込むよう依頼するだけで、ETLルールの作成を必要とせず自動的に完結することができます。さらに、処理中に遭遇した問題や外れ値を批判的な視点で指摘するよう求めることが可能になりました。
さらに一歩進んだ活用も可能です。データスチュワードシップ機能全体をAIに委任し、データソースと「可視化・活用」のユースケースを提示するだけで、あとはAIに任せることができます。つまり、実際のストレージはAIの問題となり、私たちはビジネスニーズが満たされる限り、「ブラックボックス」の中で何が起きているかを知る必要がないということになります。
近い将来の解決策は何らかの形でこのようなものになることはほぼ確実であり、こうしたアプローチに基づく新製品が普及するでしょう。しかしながら、AIが生み出すソリューションという新しい世界には、理解しなければならない非常に重要な制限とリスクがあります。以下では4つについて簡単に説明しますが、他にも多くの課題があることを認識しています。
1.規制遵守日本の金融機関にとって、AIの利用にはすでに実質的な制約があります。金融庁のITガバナンス枠組みおよびクラウドアウトソーシングガイドラインは、銀行に対して明確な説明責任の維持、すべてのデータ処理の監査能力、規制当局からの要請に応じてシステムの動作を説明する能力を求めています。したがって、不透明なAIレイヤーへの全面的な委任は、現時点では日本の規制当局の期待に沿うものではなく、こうした導入はいかなる場合も、慎重なスコープ設定、文書化、そして厳格なベンダー・デュー・ディリジェンスが必要です。
2.データセキュリティ
ここで問題にするのは、プロンプトやデータをAIのトレーニング入力として使用することではありません(これも機密情報漏洩の重大なリスクであり、オーストラリア・ニューサウスウェールズ州政府が洪水被災者データをChatGPTにアップロードした事例はその好例です)。より深刻なのは、クラウド接続されたシステムへのデータ処理の委任です。GenAIシステムが生成するエージェントはローカルではなくソース側で動作するため、大量のデータが国境を越えて送受信されます。このプロセスがセキュアな「クローズドループ」であったとしても(これ自体も確実ではありませんが)、特定の種類のデータ処理を国内でのみ行うことを義務付ける国内法に違反する可能性があります。
日本の金融機関にとって、このリスクは特に深刻です。2022年の改正で大幅に強化された個人情報保護法(APPI)は、個人データの海外移転に厳しい条件を課しており、同等の保護水準または個人の明示的な同意が必要とされます。別途、金融庁のクラウドアウトソーシングガイドラインは、銀行がすべてのサードパーティ処理に対して運用上の監視と監査の権利を維持することを求めていますが、多くの海外AIプロバイダーはこれらの条件を容易には満たすことができません。さらに、日本の金融機関の事実上の技術標準である公益財団法人金融情報システムセンター(FISC)安全対策基準は、AI主導のデータ処理の導入前に必ず評価される必要があります。
3.テクニカルデット(技術的負債)
技術的な側面では、データを処理するために使用するルールと、データ管理全般のためのコードベースの制御を失うやいなや、私たちはまた、暴走する技術的負債のリスクを負うことになります。実際には、コードがどれほど適切に構造化されているかが分からないことを意味します。AIが生成したETLシステムは、スケーラビリティが保証されない数万行のコードを容易に生成します。AI対話の積み上げ的な性質(例:今日「A」を実装するようAIに指示し、明日「B」機能を追加する)により、コードはあっという間に膨大で非効率なものになりかねません。これは単なるITシステム管理の問題ではなく、主要な結果として、すべてのエンドツーエンドタスクを適時に実行するためにさらに大きなリソースを必要とするようになるため、ETLシステムの運用コストがますます増大するという問題が生じます。
4.将来への対応(フューチャープルーフィング)
テクニカルデットに関連する問題として、将来への対応があります。優れたエンジニアがデータパイプラインを構築する際は、ロードマップ・ビジョン・経験に基づいて設計します。彼らは、今日の最先端のパフォーマンスが数年で時代遅れになることを知っており、2年ごとに大規模なアーキテクチャの見直しを行うコスト・時間・そして何より重要なリスクを負うことができる企業はほとんどないため、大幅な増加に対応できるよう直感的に設計します(上述の大手銀行の事例を参照)AIは知覚を持つ存在ではなく、人間のような「思考」はしません。AIは将来を真に予測したり、将来の要件を総合的に想像したりすることはできず、近い将来そうなることも期待すべきではありません。
今後の記事では、日本の金融機関向けのAIベストプラクティスについて実践的に論じる予定ですが、それまでの間に、企業全体でAIを採用するよう増大するプレッシャーの中で、念頭に置くべきいくつかのシンプルなデータ管理上の注意点をご紹介します。
著者のご紹介
ウオリック・マセウス
ウオリック・マセウス(Warwick Matthews)
最高技術責任者 兼 最高データ責任者
複雑なグローバルデータ、多言語MDM、アイデンティティ解決、「データサプライチェーン」システムの設計、構築、管理において15年以上の専門知識を有し、最高クラスの新システムの構築やサードパーティプラットフォームの統合に従事。 また、最近では大手企業の同意・プライバシー体制の構築にも携わっている。
米国、カナダ、オーストラリア、日本でデータチームを率いた経験があり、 最近では、ロブロー・カンパニーズ・リミテッド(カナダ最大の小売グループ)および米国ナショナル・フットボール・リーグ(NFL)のアイデンティティ・データチームのリーダーとして従事。
アジア言語におけるビジネスIDデータ検証、言語間のヒューリスティック翻字解析、非構造化データのキュレーション、ビジネスから地理のIDデータ検証など、いくつかの分野における特許の共同保有者でもある。