生成AI(GenAI)の人気がこれまでにないスピードで爆発的に広がったことは、もはや誰もが認める事実です。日常に生成AIを活用する場面が増えていることを実感している方は大勢いらっしゃるでしょう。
私たちCDLも生成AIソリューションを提供しています。
しかし、ビジネスにおいては「なぜ、そうなったのか」の説明が必要で、完全にAIに依存することはできないのが現状です。
今回は、私たちの日常に浸透しつつある生成AIの”今”を知っていただこうと思います。
目次
AIの登場
現在、多くの企業のウェブサイトでは、「AIとチャット」ボタンやチャットボットが導入されています。 3年前には存在しなかった技術が、今ではECサイト、ソーシャルメディア、学術、B2B(企業間取引)の分野に至るまで広く浸透しています(ChatGPTが一般公開されたのは2022年11月30日で、ちょうど2年前のことです)。
〈楽天のお客様サポートAIチャット〉
〈コストコ(Costco)の典型的なチャットボット〉
生成AIは魅力的な技術ですが、まだ多くのビジネスや技術的なタスクにおいて完全には要求に応えられていないことを忘れてはいけません。生成AIが最初にトレーニングされた内容と、実際にビジネスでどのように使われるかの間には矛盾があります。
いくつかの生成AIシステムは、英語と日本語の両方で非常に流暢に会話できるように見えますが、現在の技術にはいくつかの欠点もあります。私たちの経験では、商業目的で使用されている生成AIチャットボットが、自信満々に誤った情報を提供するケースを何度も見てきました。このような場合、私たちは自分の専門知識でそれを確認し、必要に応じてアドバイスを無視することができます。しかし、私たちが知らない分野では生成AIの回答を信頼せざるを得ない環境ですが、本当に信頼しても良いのでしょうか?
生成AIチャットボットのトレーニング方法
大規模言語モデル(LLM)を基にしたチャットボットは、最初に非常に膨大な量のテキストを記憶するトレーニングを行います。その量は、1,000万冊以上の小説に相当すると言われています。商業用の生成AIチャットボットのトレーニングにかかる計算コストだけでも、2,000万米ドル(30億円)以上に達すると見積もられています。この段階では、テキストが正確に事実に基づいていることが非常に重要です。例えば、百科事典や教科書、マニュアルなどが使われます。もしこれらの情報が正確でない場合、言語モデルは信頼できない情報を記憶してしまい、それを後で修正するのは非常に困難です。
「学習する」と言っても、トレーニング中のチャットボットは批判的思考を持っていません。事実と虚構、真実と嘘、ニュースと誤情報を区別することはできません。与えられた情報をそのまま受け入れてしまいます。
初期のモデルは、トレーニングデータをとても上手に再現できます。例えば、数学の教科書を使って学習させた場合、数学の問題を出すと、その問題に対する解答を返してくれます。もしその問題が教科書に載っている問題と似ていれば、モデルはほぼ間違いなく正しい答えを出してくれます。
次の段階では、LLMは実際のユーザーと会話するためのチャットボットとしてトレーニングされます。この段階では、例となるスクリプトやたくさんのユーザーテストを使って学習します。目標は、チャットボットが「役に立ち」「害がなく」「正確な情報を伝える」ようにすることです。
共感と「真実」の対立
現代の生成AIチャットボットは、ユーザーに役立ち、害を与えないようにトレーニングされています。つまり、共感的な口調で返答することが求められます。私たちが人間同士の日常生活で経験するように、事実をそのまま伝えるだけが、必ずしも効果的なコミュニケーションとは限りません。生成AIのこの機能を実際に試してみると、人間的な感情を含んだ会話をチャットボットとすることで、そのボットはある程度あなたが聞きたいことを返してくれることがわかります。なぜなら、そう返答するようにトレーニングされているからです。その後、何をすべきかアドバイスを求めると、感情的なやりとりなしに聞いた場合と全く異なるアドバイスが返ってくることがあります。
ビジネスの場では、問題の伝え方に関係なく、一貫した答えを提供する技術が人間にも求められます。これまではモデルやエキスパートシステムを慎重に構築し、正しいデータを使ってその正確さを検証することが求められていました。生成AIが登場することで、この手間を省く方法が提供されたように見えます。しかし、私たちはこれが必ずしも「手間を省く方法」にはならないと考えています。
利用可能性バイアス
生成AIチャットボットは人間のように振る舞うことをトレーニングされているため、人間と似たような思考の誤りを犯しやすいです。その一例が「利用可能性バイアス」です。これは、人々が判断や意思決定をする際に、容易に思い浮かぶ情報や出来事を過大評価し、それに影響されて不適切な判断をしてしまう傾向のことです。例えば、私たちはある商業用の主要な生成AIチャットボットに次のような質問をしてみました:
どちらの可能性が高い?
- 東アジア出身の選手が、西洋のスポーツチームで重要な役割を果たし、そのチームがリーグで好成績を収めること。
- 人気のある日本人バッターが、アメリカのメジャーリーグ野球チームの一員として多くの得点を挙げ、そのチームがワールドシリーズを制覇すること。
人間は、一般的に2番目のような具体的で目立つ選択肢を選びがちです。このため、チャットボットも同じように反応しました。具体的には、次のように答えました:
どちらのシナリオも現実的ですが、可能性を比較すると、2番目のシナリオの方がやや高いかもしれません。どちらのシナリオも魅力的ですが、メジャーリーグでの日本人選手の成功例が多いため、2番目のシナリオの方がやや現実的かもしれません。
しかしよく考えると、最初の選択肢は実際に2番目の選択肢を含んでいるため、「2番目の方がより可能性が高い」というのは論理的におかしいことがわかります。批判的に考えることができる人間とは異なり、AIは、この問題が単純な「どちらか一方」という選択ではないことに気づかなかったのです。
その他のバイアスと誤った考え
アップル社の最近の研究論文では、以下の例が挙げられていました:
リアムは学用品を購入したいと考えています。現在 1 個あたり 6.75 ドルの消しゴム 24 個、現在 1 個あたり 11.0 ドルのノート 10 冊、現在 19 ドルの筆記用紙 1 束を購入します。インフレにより昨年の価格が 10% 安かったと仮定すると、リアムは今いくら支払うべきでしょうか。
|
この問題を解決するには、インフレにより昨年の価格が 10% 安かったと仮定して、リアムが支払うべき金額を計算する必要があります。つまり、現在の価格を 10% 引き下げた後の価格を計算します。
ステップ 1:現在の価格を 10% 引き下げて、昨年の価格を計算します。
- 昨年の消しゴムの価格: $6.75 × 0.90 = $6.075
- 昨年のノートの価格: $11.00 × 0.90 = $9.90
- 昨年のボンド紙の価格: $19.00 × 0.90 = $17.10
ステップ 2: 昨年の価格を使用して合計コストを計算します。
- 消しゴムの合計コスト: 消しゴム 24 個 × $6.075 = $145.80
- ノートの合計コスト: ノート 10 冊 × $9.90 = $99.00
- ボンド紙の合計コスト: 1 リーム × $17.10 = $17.10
ステップ 3: すべてのコストを合計して、Liam が支払うべき合計金額を算出します。
$145.80 + $99.00 + $17.10 = $261.90
答え:$261.90
|
〈無関係な情報で生成AIを混乱させる。「GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models」から改作〉
生成AIチャットボットは簡単な計算はすぐに解くことができますが、インフレ率に関する無関係な情報を提供したため、間違った答えを出してしまいました。このようなトリック質問には、学校で誰もが一度はミスしたことがあると思いますが、重要なビジネスの意思決定をする際に、こうした間違いをしやすい人に頼りたくはありません。同じことがAIにも言えるのです。
このブログ記事では、チャットボットが陥りやすい認知の罠や、生成AIの推論における誤りをすべて説明するスペースはありませんが、読者の皆さんには自分でいくつかの例を試してみることをお勧めします。ただし、生成AIはインターネット上の公開データで広範にトレーニングされており、よくある誤謬に対する「正しい」答えを記憶していることを念頭に置いておいてください。
私たちもいくつか自分たちで例を考えてみましたが、やはり最も人気のあるチャットボットは、よくある人間の間違いを繰り返すことが多いとわかりました。
生成AIにおけるよくあるバイアス
バイアス
|
解説
|
アンカリング効果
|
アンカリング効果とは、人々が最初に提示された情報(「アンカー」)に強く影響され、その後の判断や決定がその情報に引き寄せられる現象のことです。たとえば、値段交渉で最初に提示された金額がその後の交渉に大きな影響を与える場合があります。最初に高い価格を提示された場合、最終的に決まる価格がその高い価格に近いものになる傾向があります。
|
示唆性
|
示唆性とは、他人の意見や提案によって自分の考えや判断が影響を受けやすい性質のことです。
|
フレーミング効果
|
フレーミング効果とは、同じ質問でもその聞き方がポジティブまたはネガティブな形で異なると、答えが全く違ってくる現象です。
|
最新性バイアス
|
最新性バイアスとは、最近得た情報が最も重要で関連性が高いと誤って判断してしまう現象です。
|
初頭バイアス
|
初頭バイアスとは、最初に得た情報が、後に得た情報よりも重要で関連性が高いと誤って判断してしまう現象です。
|
生存者バイアス
|
生存者バイアスとは、成功した事例や「生き残った」ものだけに注目して、失敗した事例や「消えた」ものを無視してしまうバイアスのことです。このバイアスにより、成功の要因や真実が誤って解釈されることがあります。
|
〈CDL作成〉
間違いなく、チャットボットは時間が経つにつれて、これらのバイアスがなくなるようにトレーニングされるでしょう。しかし、その結果、AIはより人間らしくなく、ロボットのような会話をすることになるかもしれません。すべての状況において、完璧に解決することが効果的とはいえないということです。
生成AIを信頼できる分野とは
どんなツールにも言えることですが、生成AI(GenAI)は、適切な場面で使うと非常に効果的ですが、間違った場面で使うと効果がないだけでなく、むしろ危険になることもあります。例えば、洗濯機でパソコンを洗うことは絶対にないように、AIも適切な場所で使うことが大切で、どこで使うべきか、どこでは使わない方が良いのかを見極める必要があります。
以下は、私たちが日本のB2BでAIを初めて導入した経験から得た観察結果です。もちろん、これらの内容に保証はありませんし、AIは急速に進化しているため、このリストも時間とともに変わることを理解しておいてください。
生成AIを適用できる分野
AIが非常に役立つ分野
|
AIが役立たない分野
|
・ソフトウェア開発における簡単なコードの提案
・現実的なサンプルデータのリスト作成
・マーケティングにおける言語の提案
・基本的な言語翻訳*
・複雑なデータセットの整合性チェック
|
・事実確認
・最新の統計情報の取得
・専門的なニッチ分野のコンテンツ生成
・自動での調査やレポート作成
・教師なしアルゴリズムの開発
・ソフトウェアアプリケーションの完全自動作成
|
*これは使用するAIによって大きく異なります。
現時点で実際に活用されているのは、経験豊富な人間の監視の下で、面倒なタスクを高速で行う場面です。完全な自動化されたソリューションとして生成AIを推奨することはできません。
結論
LLMチャットボットは、シンプルな指示に驚くほどうまく対応しますが、それは逆にこれまでのAIよりも「主観的」になっているということです。つまり、AIが私たちの言葉をどう解釈するかによって、返ってくる答えが変わってくるということです。以前のAIでは、同じ質問に対していつも同じ答えが返ってきたか、範囲外の質問には答えが返されないことが一般的でした。しかし、新しいLLMでは、同じ質問をしても答えがバラバラになることがあり、最初から正確な答えが得られるわけではありません。これは、AIが人間らしく振る舞うように学習しているためで、言葉がもともと主観的なものなので、簡単には改善できない問題かもしれません。
多くの「AI企業」と呼ばれる会社は、実際にはChatGPT(または他の似たようなAIモデル)の上に薄いカスタマイズを加えたものを作っているだけのことが多いです。ビジネスではこのようなシステムを使う前に、見た目や使い勝手だけでなく、そのAIモデル自体が持っているバイアスや性能をきちんと評価することが重要です。また、その評価には手作業でのチェックや調整が必要で、場合によっては、今まで通り特定の目的に合わせてAIを学習させる方法に戻ることが必要になるかもしれません。
私たちCDLは、多くのクライアントと同じように、積極的にAIソリューションを提供しており、現在、まさにこれらの課題に取り組んでいます。私たちの技術チームは、AI、エキスパートシステム、機械学習の専門家で構成されており、クライアントやフィンテック業界の仲間たちと私たちの経験や学びを共有できることを大変嬉しく思っています。
著者のご紹介
ウオリック・マセウス
ウオリック・マセウス(Warwick Matthews)
最高技術責任者 兼 最高データ責任者
複雑なグローバルデータ、多言語MDM、アイデンティティ解決、「データサプライチェーン」システムの設計、構築、管理において15年以上の専門知識を有し、最高クラスの新システムの構築やサードパーティプラットフォームの統合に従事。 また、最近では大手企業の同意・プライバシー体制の構築にも携わっている。
米国、カナダ、オーストラリア、日本でデータチームを率いた経験があり、 最近では、ロブロー・カンパニーズ・リミテッド(カナダ最大の小売グループ)および米国ナショナル・フットボール・リーグ(NFL)のアイデンティティ・データチームのリーダーとして従事。
アジア言語におけるビジネスIDデータ検証、言語間のヒューリスティック翻字解析、非構造化データのキュレーション、ビジネスから地理のIDデータ検証など、いくつかの分野における特許の共同保有者でもある。
ジェニファー・ハンセル
ジェニファー・ハンセル(Jennifer Handsel)
データサイエンス リーダー
オクスフォード大学化学部理論物理化学博士課程修了後、イギリス国立研究所で物理科学データサイエンスサービスの主席開発者を務めた。2021年からは株式会社スコビルでAIエンジニアとして、外部のお客様に対するコンサルティング業務に従事。2024年からCDLにて現職。日英仏トリリンガル。