データ管理

LLMの最新動向とデータ管理の未来:日本語特化AIの課題と展望


はじめに  

 連日、あらゆるニュースメディアで、AIがほとんどすべての未来を左右するという話題が取り上げられています。 その一部は誇張された宣伝であったり、またはマーケティングに関連するもの、時にはAIが現代社会に経済的、文化的、さらには本質的にもたらす悲惨な影響と現実的な危険性について警鐘を鳴らす内容だったりします。  

「AI is here now」という主張が繰り返されていますが、5年後、10年後から見て、この時期はむしろ過渡期(技術的な成長期)とみなされる可能性が高いのではないかと思われます。 最近では、ChatGPTのような大規模言語モデル(LLM)が爆発的に普及しており、ITやフィンテックに代表される多くの業界では、すでに身近な存在となっています。 しかし、これらのサービスはまだ完成したものだとは見なされていません。実際に自己を認識し、本当に考えることができる最初の汎用型の人工知能(AGI)を開発することが期待されています。 これは明日実現するかもしれませんし、5年後実現するかもしれません。もしくはまったく実現しない可能性もあります(それは人類が将来を予測して、最後の一歩を踏み出さないことを選択した場合だと想像します)。  

一方で、ビジネスにおける意思決定者は、主要なAIを活用したソリューションを提供するソリューションプロバイダーから、頻繁に営業を受けています。しかし、彼らのサービスが、実際には一般的に利用可能なAIチャットボットに少し手を加えただけのツールであることを、明確にしていない場合もあるようです。 

目次

  1. 主要なLLMプラットフォームの紹介

  2. LLMモデルの課題と日本における事例紹介 

  3. クラウド依存のLLMとオフラインAI:企業が直面する課題と選択肢 

  4. 日本に特化したLLMの未来:独自AI構築への挑戦と課題

  

 


1.主要なLLMプラットフォームの紹介 


 ここでは広く利用されている主要なAIを5つ紹介します。もちろん、これ以外にも多くのAIが存在し、「ML(機械学習)プラットフォーム」と呼ばれる以前の「AI」ツールもあります。ここに挙げるAIは特に注目を集めており、気づかないうちにあなたの生活に影響を与えているかもしれません。  

 Google Gemini     ChatGPT

 Meta AI     Claude

Llama3

 


今回は、主要なLLMプラットフォームの長所や短所を包括的に分析するのではなく、むしろ日本のビジネス環境に適用する際に直面している課題に焦点を当てていきたいと思います。  

 

 

 


2.LLMモデルの課題と日本における事例紹介


日本の人工知能
 非英語圏で主要な経済国であり、フィンテックや国際貿易において重要な役割を果たしている日本は、AIがもたらす利益に対して大きな需要が見込まれていると考えられています。世界的に有名なユースケースとしては、カスタマーサービス向けのチャットボットや要約システム、コールセンター分析などが挙げられます。 
ここでは、日本のビジネスにおけるもう一つの重要なユースケースをご紹介します。

 

 


AI翻訳の現状と課題


 LLMベースのAIは、異なる言語で事業を展開する企業(例えば、日本の商社とスペインのサプライヤー)が、AIをほぼリアルタイムの同時通訳者として活用し、相互にコミュニケーションを取ることができるという革命をもたらす可能性があります。これにより、企業は海外とのやり取りに専任の(通常は上級の)多言語スタッフを窓口として配置する必要がなくなり、また英語のような母国語ではない言語を使わずに済むことを意味します。 

データ管理においても、国境を越えたMDM(マスターデータ管理)、ERP、CRMは、企業にとって常に大きな課題です。これらの分野の主要なシステムの多くは、「あらゆるユースケースに対応し、あらゆる言語をサポートする」と主張していますが、現実にはそうしたシステムは非常に少ないのが実情です。たとえ最新のMDMシステムが導入されていたとしても、異なる国、言語、文化的背景を持つデータの管理は、どのビジネスにとっても非常に複雑で、時間とコストがかかる作業であることに変わりありません。   

AIはこの分野に大きな変革をもたらす可能性を秘めていますが、現時点ではまだそのレベルには達しているかという疑問に対して、結論を一言で言えば、「まだ」です。Googleが提供しているGeminiのようなチャットボットは、テキストベースの翻訳において高い能力を示していますが、現実的にはまだ完全と呼べるものではありません。リアルタイムでの提供は実現されておらず、多言語間での文字起こしも不完全で、遅延が発生することも多いです。また、クラウドベースのソリューションに依存している点も課題の一つです。 

 


3.クラウド依存のLLMとオフラインAI:企業が直面する課題と選択肢
多くの企業はデータを隔離し、オフラインにしておく必要がある


 多くの企業はデータを隔離し、オフラインで管理する必要があります。 
しかし、主要な4つのLLMであるChatGPT、MetaAI、Claude、Geminiは、いずれもクラウドベースのソリューションです。これらのシステムは商用ライセンスのもとで運用されており、ソースコードが公開されていないクローズドな形式で提供されています。また、常にウェブやその他のソースからデータを収集し、そのデータを使ってモデルを更新・改善しています。  
例えば、最近最も成功したLLMベースのツールの一つに、マイクロソフト社のCoPilotチャットボットがあります。これは、Visual Studio CodeなどのツールでGitHubを通じて利用可能です。CoPilotは、GitHubの公開リポジトリにある何百万行ものコードを元に学習させた、ChatGPTのカスタムバージョンを使用しています。 
もし、誰かがボランティアとして時間と労力を注ぎ、無料のオープンソースソリューションのコードを作成した場合、そのコードがマイクロソフトのような営利企業に利用され、結果として年間数十億ドルを稼ぐサービスの一部に組み込まれたとしたら、その人はどのように感じるでしょうか。GitHubやSourceForgeといったオープンソースプラットフォームを支える無償の公開ライセンスは、作成したコードがAIの訓練に利用される可能性について、まだ十分に対応していないのが現状です。この問題については、現在も訴訟が進行中です。 

データの機密性に関して言えば、専有データや機密情報のセキュリティは、AIをビジネスに導入しようとする企業、特に金融機関にとって極めて重要な課題です。AIをオンプレミスで運用し、その作成者やインターネットから完全に切り離せるという点は、クラウドベースのチャットボットが注目される中で、見落とされがちな重要なユースケースです。
ダウンロードやオフラインでインストール可能な製品の中で最も有名なのは、2023年にメタ社がオープンソース化したLlaMA-3(現在は「Meta Llama」)です。Llamaは、他の最新のLLMほど高性能ではないものの、それでも十分に実用的なAIソリューションの一つです。残念ながら、日本を含むアジアの言語においては、Llamaのクロスリンガル対応が弱く、うまく機能しないという課題があります。 

  では、「AI」の導入を成功させるために、LLMは本当に必要なのでしょうか? ChatGPTなどのチャットボットが驚異的な成功を収めているため、評論家たちはチャットボット以外の人工知能の提供に目を向ける機会が少なくなっています。しかし、複雑なビジネス課題を解決できる強力な非LLMベースのAIソリューションも存在しています。例えば、BERT、Spacy、FastText、GENSIM、fairseqなどがその例です。また、PyTorchやかつてニューラルネットワークで注目されたTensorFlowを使って、ゼロからモデルをトレーニングすることも依然として可能です。これらの技術や実際のビジネスでの活用については、別の記事で詳しく説明する予定です。  
 

 

 

 

4.日本に特化したLLMの未来:独自AI構築への挑戦と課題

 

私たちは、日本語に特化したLLMを創るその時が来たと思っています。
そのシステムは、次の条件を満たす必要があります。 

<日本語対応のLLMを創るために>

  • 日本語のデータを十分に厳選し、広範囲に学習していること 
  • 日本語で自然な会話ができること 

  • オフラインでインストール可能であること 

  • カスタムモデルデータを使用して段階的な学習が可能であり、企業独自の言語データを活用できること 

  • シンプルなチャットインターフェースとAI機能を提供できること 

  • 単に海外製のLLMに手を加えただけのものではないこと 

日本語LLMのトレーニングには、AIの内部知識ベースとなる数テラバイトに及ぶ高品質な日本語データを収集するための協調的な取り組みが必要です。現在、日本語を流暢に話すモデルの多くは、主に英語データに基づいているため、日本独自の文化や言語学的な課題に対する理解が不足しています。日本語データの厳選に関しては、すでに多くの優れた取り組みが行われていますが、拡張性や品質管理においてはまだ改善の余地が残されています。
 
実用的なLLMを構築する際、最も大きなコストがかかるのは、この知識ベースを含む基盤モデルのトレーニングです。既存の日本語ベースのモデルは存在するものの、規模が小さく、十分な訓練がされていないことが多いのが現状です。 

しかし、LLMの創設を米国のハイテク企業に任せるべきではありません。日本でも効果的なLLM AIを作るためのツールは誰でも利用可能であり、技術的なノウハウも十分に存在しています。
適切なツール、日本のチーム、そしてGPUトレーニングインフラへの十分な投資があれば、最先端の日本発のLLMを実現することは十分に可能です。今後1〜2年の間に、この分野でどのような進展があるか注目すべきでしょう。
ジェニファー・ハンセル博士率いるCDLのデータ・サイエンス&アナリティクス・チームは、日本の研究開発におけるこのエキサイティングな次の章に、間違いなく関与していくことでしょう。

 

 

 

著者のご紹介

ウオリック・マセウス 

スクリーンショット 2024-04-04 11.05.00

ウオリック・マセウス(Warwick Matthews)  
最高技術責任者 最高データ責任者

複雑なグローバルデータ、多言語MDM、アイデンティティ解決、「データサプライチェーン」システムの設計、構築、管理において15年以上の専門知識を有し、最高クラスの新システムの構築やサードパーティプラットフォームの統合に従事。 また、最近では大手企業の同意・プライバシー体制の構築にも携わっている。  

米国、カナダ、オーストラリア、日本でデータチームを率いた経験があり、 最近では、ロブロー・カンパニーズ・リミテッド(カナダ最大の小売グループ)および米国ナショナル・フットボール・リーグ(NFL)のアイデンティティ・データチームのリーダーとして従事。  

アジア言語におけるビジネスIDデータ検証、言語間のヒューリスティック翻字解析、非構造化データのキュレーション、ビジネスから地理のIDデータ検証など、いくつかの分野における特許の共同保有者でもある。

 

ジェニファー・ハンセル

メガネを掛けた女性

説明は自動で生成されたものです

ジェニファー・ハンセル(Jennifer Handsel)
 データサイエンス リーダー

 

オクスフォード大学化学部理論物理化学博士課程修了後、イギリス国立研究所で物理科学データサイエンスサービスの主席開発者を務めた。2021年からは株式会社スコビルでAIエンジニアとして、外部のお客様に対するコンサルティング業務に従事。2024年からCDLにて現職。日英仏トリリンガル。

 

Similar posts

ブログ購読申込

コンプライアンス・データラボ代表取締役の山崎博史を含む国内外のコンプライアンス専門家やデータマネジメントのスペシャリストが、お客様のコンプライアンス管理にまつわる国内外の最新情報やトレンド、重要な問題を解説します。当ブログを通じて最新のベストプラクティスやガイドラインの情報も提供します。
 
ブログの購読をご希望の方は下記のリンクより、フォームに必要事項を入力してご登録ください。
配信は毎週金曜日を予定しています。購読料は無料です。