GPT-4でさえテストに失敗し、17の大規模モデルすべてが失敗しました。因果推論は難しすぎる

ChatGPT のリリース以来、強力な言語理解、生成、論理的推論機能など、大規模モデルの出現能力が高く評価されてきました。しかし、最近の研究では、大規模なモデルは一般的に因果推論のパフォーマンスが低く、GPT-4 でさえ失敗することがわかりました。

この研究は、マックス・プランク研究所、チューリッヒ工科大学、ミシガン大学、香港大学、Meta AIの研究者によって実施されました。この研究の目的は、大規模言語モデル (LLM) が相関関係に基づいて因果推論を実行できるかどうかを調査することです。

論文アドレス: https://arxiv.org/abs/2306.05836

因果推論は重要な推論タスクです。因果関係を得るには、経験的知識を介した 2 つの基本的な方法があります。たとえば、友人の誕生日プレゼントを用意すると、友人が喜ぶことは常識からわかります。もう 1 つは、いくつかの手順とルールを介した純粋な因果推論です (Spirtes 他、2000 年、Pearl、2009 年、Peters 他、2017 年)。

下の図 1 に示すように、A が B と相関関係にある場合、A が B の原因であることを意味するわけではありません。A と B が元々独立しているが、C によって相関関係になった場合、この閉じたシステムでは C が A と B の共通効果であると推測できます。

この研究では、新しい NLP タスクである相関因果推論 (CORR2CAUSE) を提案します。 LLM の成功が項目間の大量の統計的相関関係を捕捉することから生まれるのであれば、重要なステップが欠落している場合、相関関係をどのように処理し、因果関係を推測するのでしょうか?したがって、本研究では、CORR2CAUSE 推論が大規模言語モデル (LLM) に不可欠なスキルであると主張しています。

データセットの構築

まず、この研究では、大規模言語モデルの純粋な因果推論機能をテストするために、CORR2CAUSE データセットを収集して整理しました。このデータセットのすべての質問は、LLM が相関関係から因果関係を推測するタイミングを中心に展開されます。 CORR2CAUSE データセットを体系的に形成するために、一般化プロセスを因果発見の正式なフレームワーク (Spirtes et al., 1993, 2000; Glymour et al., 2016; Spirtes and Zhang, 2016; Glymour et al., 2019) に組み込みます。このフレームワークは、観測データ内の統計的相関に基づいて変数間の因果関係を推測するルールをカバーしています。

CORR2CAUSE データセットには 400K のサンプルが含まれており、有効なサンプルは 18.57% を占めています。相関関係と因果関係のステートメントペアは、統計的相関関係と潜在的な因果関係の間に一対一のマッピングがある場合にのみ有効としてマークされます。

この研究では、CORR2CAUSE データセットに基づいて、主に次の 2 つの問題を分析します。

既存の LLM はこのタスクをどのように実行しますか?
既存の LLM をこのタスクのために再訓練または再利用し、強力な因果推論スキルを習得することは可能でしょうか?

この研究では、既存の 17 個の LLM がすべて、この純粋な因果推論タスクでパフォーマンスが低いことが実験を通じて示されました。また、LLM はデータを微調整するとパフォーマンスが向上しますが、因果推論スキルは堅牢ではありません。

実験結果

既存のLLMのCORR2CAUSE機能

下の表 4 に示すように、純粋な因果推論は、実験におけるすべての LLM にとって非常に困難なタスクです。その中で、BART MNLI は F1 値が 33.38% と最も高く、GPT-4 (29.08%) よりも高くなっています。特に、多くのモデルはランダムな推測よりもパフォーマンスが低く、純粋な因果推論タスクでは完全に失敗します。

微調整されたパフォーマンス

次に取り組むべき質問は、LLM にこのタスクを再学習させることができるかどうかです。

以下の表5(a)の実験結果から、CORR2CAUSEで微調整された12のモデルは比較的良好なパフォーマンスを示し、ほとんどのモデルで大幅なパフォーマンス向上が達成されたことがわかります。その中でも、BERT ベースの NLI モデルは微調整後に最高のパフォーマンスを発揮し、RoBERTa-Large MNLI はこのタスクで F1 スコア 94.74% を達成し、精度、再現率、正確性スコアも非常に高くなりました。

一方、図5(b)は、各モデルが外乱を受けたときの実験結果を示しています。すべてのモデルのパフォーマンスが急激に低下し、最もパフォーマンスが優れているRoBERTa-Large MNLIモデルは、パフォーマンスの低下が最も大きいモデルです。ただし、RoBERTa-Large MNLIは変数再構築に対して最も堅牢であり、67.87という高いF1スコアを維持しています。一般的に、既存の LLM の堅牢性は比較的低いです。

上記の全体的な結果に加えて、本研究では、6 つの因果関係タイプにおける最強モデル RoBERTa-Large MNLI のパフォーマンスを調査するために、きめ細かい分析も実施しました。

下の表6(a)に示すように、RoBERTa-Large MNLIモデルは、「Is-Parent」、「Is-Descendant」、「Has-Confounder」などの関係を判断する際に非常に優れたパフォーマンスを発揮し、F1スコアは96%を超えています。ただし、「Has-Collider」関係ではパフォーマンスが若干低下します。これは、コライダー関係が最も特殊なタイプであり、2 つの変数のみの無条件独立性と、共通の子孫を持つことを条件とする相関関係に基づく V 構造の識別を必要とするためであると考えられます。

興味のある読者は、研究の詳細について原著論文を読むことができます。

<<: テクノロジーはどのようにして人々を怠惰にするのでしょうか?

>>: 社内抗争、顧客獲得競争…マイクロソフトとOpenAIの協力の裏側を海外メディアが暴露