GPT-4でさえテストに失敗し、17の大規模モデルすべてが失敗しました。因果推論は難しすぎる

GPT-4でさえテストに失敗し、17の大規模モデルすべてが失敗しました。因果推論は難しすぎる

ChatGPT のリリース以来、強力な言語理解、生成、論理的推論機能など、大規模モデルの出現能力が高く評価されてきました。しかし、最近の研究では、大規模なモデルは一般的に因果推論のパフォーマンスが低く、GPT-4 でさえ失敗することがわかりました。

この研究は、マックス・プランク研究所、チューリッヒ工科大学、ミシガン大学、香港大学、Meta AIの研究者によって実施されました。この研究の目的は、大規模言語モデル (LLM) が相関関係に基づいて因果推論を実行できるかどうかを調査することです。

論文アドレス: https://arxiv.org/abs/2306.05836

因果推論は重要な推論タスクです。因果関係を得るには、経験的知識を介した 2 つの基本的な方法があります。たとえば、友人の誕生日プレゼントを用意すると、友人が喜ぶことは常識からわかります。もう 1 つは、いくつかの手順とルールを介した純粋な因果推論です (Spirtes 他、2000 年、Pearl、2009 年、Peters 他、2017 年)。

下の図 1 に示すように、A が B と相関関係にある場合、A が B の原因であることを意味するわけではありません。A と B が元々独立しているが、C によって相関関係になった場合、この閉じたシステムでは C が A と B の共通効果であると推測できます。

この研究では、新しい NLP タスクである相関因果推論 (CORR2CAUSE) を提案します。 LLM の成功が項目間の大量の統計的相関関係を捕捉することから生まれるのであれば、重要なステップが欠落している場合、相関関係をどのように処理し、因果関係を推測するのでしょうか?したがって、本研究では、CORR2CAUSE 推論が大規模言語モデル (LLM) に不可欠なスキルであると主張しています。

データセットの構築

まず、この研究では、大規模言語モデルの純粋な因果推論機能をテストするために、CORR2CAUSE データセットを収集して整理しました。このデータセットのすべての質問は、LLM が相関関係から因果関係を推測するタイミングを中心に展開されます。 CORR2CAUSE データセットを体系的に形成するために、一般化プロセスを因果発見の正式なフレームワーク (Spirtes et al., 1993, 2000; Glymour et al., 2016; Spirtes and Zhang, 2016; Glymour et al., 2019) に組み込みます。このフレームワークは、観測データ内の統計的相関に基づいて変数間の因果関係を推測するルールをカバーしています。

CORR2CAUSE データセットには 400K のサンプルが含まれており、有効なサンプルは 18.57% を占めています。相関関係と因果関係のステートメント ペアは、統計的相関関係と潜在的な因果関係の間に一対一のマッピングがある場合にのみ有効としてマークされます。

この研究では、CORR2CAUSE データセットに基づいて、主に次の 2 つの問題を分析します。

  • 既存の LLM はこのタスクをどのように実行しますか?
  • 既存の LLM をこのタスクのために再訓練または再​​利用し、強力な因果推論スキルを習得することは可能でしょうか?

この研究では、既存の 17 個の LLM がすべて、この純粋な因果推論タスクでパフォーマンスが低いことが実験を通じて示されました。また、LLM はデータを微調整するとパフォーマンスが向上しますが、因果推論スキルは堅牢ではありません。

実験結果

既存のLLMのCORR2CAUSE機能

下の表 4 に示すように、純粋な因果推論は、実験におけるすべての LLM にとって非常に困難なタスクです。その中で、BART MNLI は F1 値が 33.38% と最も高く、GPT-4 (29.08%) よりも高くなっています。特に、多くのモデルはランダムな推測よりもパフォーマンスが低く、純粋な因果推論タスクでは完全に失敗します。

微調整されたパフォーマンス

次に取り組むべき質問は、LLM にこのタスクを再学習させることができるかどうかです。

以下の表5(a)の実験結果から、CORR2CAUSEで微調整された12のモデルは比較的良好なパフォーマンスを示し、ほとんどのモデルで大幅なパフォーマンス向上が達成されたことがわかります。その中でも、BERT ベースの NLI モデルは微調整後に最高のパフォーマンスを発揮し、RoBERTa-Large MNLI はこのタスクで F1 スコア 94.74% を達成し、精度、再現率、正確性スコアも非常に高くなりました。

一方、図5(b)は、各モデルが外乱を受けたときの実験結果を示しています。すべてのモデルのパフォーマンスが急激に低下し、最もパフォーマンスが優れているRoBERTa-Large MNLIモデルは、パフォーマンスの低下が最も大きいモデルです。ただし、RoBERTa-Large MNLIは変数再構築に対して最も堅牢であり、67.87という高いF1スコアを維持しています。一般的に、既存の LLM の堅牢性は比較的低いです。

上記の全体的な結果に加えて、本研究では、6 つの因果関係タイプにおける最強モデル RoBERTa-Large MNLI のパフォーマンスを調査するために、きめ細かい分析も実施しました。

下の表6(a)に示すように、RoBERTa-Large MNLIモデルは、「Is-Parent」、「Is-Descendant」、「Has-Confounder」などの関係を判断する際に非常に優れたパフォーマンスを発揮し、F1スコアは96%を超えています。ただし、「Has-Collider」関係ではパフォーマンスが若干低下します。これは、コライダー関係が最も特殊なタイプであり、2 つの変数のみの無条件独立性と、共通の子孫を持つことを条件とする相関関係に基づく V 構造の識別を必要とするためであると考えられます。

興味のある読者は、研究の詳細について原著論文を読むことができます。

<<:  テクノロジーはどのようにして人々を怠惰にするのでしょうか?

>>:  社内抗争、顧客獲得競争…マイクロソフトとOpenAIの協力の裏側を海外メディアが暴露

ブログ    

推薦する

過大評価された5つのテクノロジー:誇大宣伝の裏にある現実を探る

すべてのテクノロジーが期待通りの成果を上げたり、当初の約束を果たしたりするわけではありません。技術進...

2024年はテクノロジー企業の終焉となるでしょうか?報告書:3年後には技術の80%が素人によって提供される

[[405703]]最近、アメリカの有名なテクノロジー調査・コンサルティング会社であるガートナーは、...

次世代の顔認識技術とは何でしょうか?ここを見て

アクセス制御業界における顔認識の需要の高まりに応えて、このコンセプトをより高い技術レベルで拡張する新...

人工知能はますますあらゆる分野に浸透しつつある

近年、人工知能技術は急速に発展し、ますます多くの分野でその急速な発展の勢いと大きな可能性を発揮してい...

ビジネスマーケティングにおける人工知能の6つの応用

[[378540]] [51CTO.com クイック翻訳] 今日、人工知能(AI)に基づくソリューシ...

資本の饗宴は続く:2021年上半期の生体認証分野における資金調達のレビュー

近年、5Gが話題になっていますが、AIはまだ時代遅れになっていません。特に、インターネットが普及し、...

SMOTE アルゴリズムを使用せずに、マルチクラスの不均衡なデータをどのように処理できますか?

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

...

...

面接に合格してNLPの扉を開くのに役立つNLPの簡単なガイド

弱い人工知能の時代が到来し、人々の日常生活はアルゴリズムが提供するサービスと切り離せないものとなって...

医療用ロボット:世界第2位のロボットの現状と今後の応用展望

医療用ロボットという用語は、監督なしで事前にプログラムされたタスクを自律的に実行する機械のイメージを...

仮病を使って休暇を取る時代は終わり?イスラエルの企業が、45秒で病気を装う従業員を識別できるAIプログラムを開発

海外で流行が猛威を振るう中、多くの企業は従業員にリモートワークをさせざるを得ない状況となっている。そ...

流行は収まったが、学校の開始は何度も延期されている。プログラムシミュレーションでその理由がわかる

全国的な「オンライン授業」が始まって1か月、湖北省以外の省では新型コロナウイルスの新規感染者もそれほ...

面接でコンシステントハッシュアルゴリズムについて再度質問されました。この答えは面接官を即死させるでしょう!

[[284994]]データシャーディングまずは例を見てみましょう。多くの場合、キャッシュには Re...

転換点までのカウントダウン:AI サーバーが市場を完全に支配するにはどれくらいの時間がかかるのでしょうか?

ハイパースケーラーとクラウド プロバイダーがインフラストラクチャの計画を検討する場合、まず全体的な動...