LeCunは再び自己回帰LLMを批判：2つの論文で証明されているように、GPT-4の推論能力は非常に限られている

「自己回帰型 LLM が人間レベルの AI に近い、あるいは人間レベルのパフォーマンスに達するにはスケールアップする必要があると考えている人は、ぜひこれを読んでください。AR-LLM の推論機能と計画機能は非常に限られており、この問題の解決策は、それらを大きくしてより多くのデータでトレーニングすることではありません。」

チューリング賞受賞者の Yann LeCun 氏は、常に LLM に対して「懐疑的」であり、自己回帰モデルは、GPT シリーズの LLM モデルが依存する学習パラダイムです。彼は自己回帰法と法学修士号に対する批判を何度も公に表明しており、次のような有名な引用文を数多く残しています。

「5年後には、正気な人なら誰も自己回帰モデルを使っていないだろう。」

「自己回帰生成モデルはダメだ！」

「LLMの世界に対する理解は非常に表面的です。」

ルカン氏が最近再び発言するようになったのは、新たに発表された2つの論文がきっかけだった。

「LLM は、文献で主張されているように、本当にソリューションを自己批判し (そして繰り返し改善し) ることができるのでしょうか? 私たちのグループの 2 つの新しい論文では、推論 (https://arxiv.org/abs/2310.12397) と計画 (https://arxiv.org/abs/2310.08118) のタスクに関するこれらの主張を調査 (そして異議を唱え) しています。」

GPT-4 の検証機能と自己批判機能を調査したこれら 2 つの論文のテーマは、多くの人々の共感を呼んでいるようです。

論文の著者らは、LLM は (言語形式であろうとコード形式であろうと) 優れた「アイデア生成器」であると考えているものの、LLM 自身の計画/推論能力を保証することはできないと述べています。したがって、これらは LLM-Modulo 設定 (信頼できる推論システムまたは人間の専門家が関与) で使用するのが最適です。自己批判には検証が必要であり、検証は推論の一形態です (LLM が自己批判できるという話はここから来ています)。

一方で、懐疑的な声もある。「畳み込みネットワークの推論能力はより限られているが、それがAlphaZeroの取り組みを妨げることはなかった。重要なのは、推論プロセスと確立された（RL）フィードバックループだ。このモデル能力は、（研究レベルの数学のような）極めて深い推論を実行できると思う」

これについての LeCun 氏の考えは、「AlphaZero は」計画を実行するというものです。これはモンテカルロツリーサーチによって行われ、畳み込みネットワークを使用して適切なアクションを考え出し、別の畳み込みネットワークを使用して位置を評価します。このツリーの探索に費やされる時間は潜在的に無限です。これはすべて推論と計画に関するものです。「

今後しばらくの間、自己回帰 LLM に推論および計画する能力があるかどうかという問題は決着しない可能性があります。

次に、これら 2 つの新しい論文の内容を見てみましょう。

論文 1: GPT-4 は間違っていることを知らない: 推論問題に対する反復プロンプトの分析

最初の論文では、GPT-4 を含む最先端の LLM の自己批判的機能について疑問が提起されました。

論文アドレス: https://arxiv.org/pdf/2310.12397.pdf

次に論文紹介を見てみましょう。

大規模言語モデル (LLM) の推論能力については、常にかなりの意見の相違がありました。当初、研究者は、モデルのサイズが大きくなるにつれて、LLM の推論能力が自動的に発揮されるだろうと楽観的でした。しかし、失敗例が増えるにつれて、人々の期待はそれほど強くなくなりました。その後、研究者は一般的に、LLM には自己批判の能力があり、反復的に LLM ソリューションを改善できると信じ、この見解は広く普及しました。

しかし、これは本当にそうなのでしょうか?

アリゾナ州立大学の研究者らは新たな研究で法学修士課程修了者の推論能力を調査した。具体的には、最も有名な NP 完全問題の 1 つであるグラフ彩色問題における反復プロンプトの有効性に焦点を当てました。

この研究では、(i) LLM はグラフの色付けインスタンスを解決するのが得意ではないこと、(ii) LLM はソリューションの検証が得意ではないため反復モードでは効果がないことを示しています。したがって、この論文の結果は、最先端の LLM の自己批判能力について疑問を提起します。

この論文では、いくつかの実験結果が示されています。たとえば、直接モードでは、LLM はグラフの色付けインスタンスを解決するのが非常に苦手です。さらに、この研究では、LLM はソリューションの検証が得意ではないことも判明しました。しかし、さらに悪いのは、システムが正しい色を識別できず、間違った色になってしまう場合です。

次の図はグラフの色付け問題の評価であり、GPT-4 は独立した自己批判モードで色を推測できます。自己批判ループの外側には外部音声検証機能もあります。

結果によると、GPT4 は色の推測において 20% 未満の精度であり、さらに驚くべきことに、自己批判モード (下の図の 2 番目の列) の精度が最も低いことがわかりました。この論文では、外部のサウンド検証者が GPT-4 によって推測された色について証明可能な正しい批評を提供した場合に、GPT-4 がそのソリューションを改善するかどうかという関連する質問も調査しています。この場合、リバースヒントによってパフォーマンスが実際に向上する可能性があります。

GPT-4 が誤って有効な色を推測したとしても、自己批判により違反は発生していないと幻覚を起こす可能性があります。

最後に、著者はグラフの色付け問題について要約しています。

GPT-4 は検証が非常に苦手なので、自己批判は実際に LLM のパフォーマンスを低下させます。
外部バリデータからのフィードバックは、実際に LLM のパフォーマンスを向上させることができます。

論文 2: 大規模言語モデルは、自身の計画を自己批判することで本当に改善できるのか?

論文「大規模言語モデルは、自身の計画を自己批判することで本当に改善できるか？」では、研究チームは、計画のコンテキストで LLM が自己検証/批判する能力を調査しました。

この論文では、特に古典的な計画問題の文脈において、LLM が自身の出力を批評する能力に関する体系的な研究を紹介します。最近の研究では、特に反復的な設定における LLM の自己批判的可能性について楽観的でしたが、この研究は異なる視点を示しています。

論文アドレス: https://arxiv.org/abs/2310.08118

驚くべきことに、結果は、特に外部検証機能と LLM 検証機能を備えたシステムと比較して、自己批判によって計画生成のパフォーマンスが低下することを示しています。 LLM は多くのエラーメッセージを生成し、システムの信頼性を損なう可能性があります。

古典的な AI 計画ドメイン Blocksworld に関する私たちの実証的評価は、LLM の自己批判的機能が計画問題には効果的ではないことを強調しています。バリデーターは多数のエラーを生成する可能性があり、特に計画の正確さが重要な領域では、システム全体の信頼性に悪影響を及ぼします。

興味深いことに、フィードバックの性質 (バイナリフィードバックまたは詳細フィードバック) はプラン生成のパフォーマンスに大きな影響を与えません。これは、根本的な問題はフィードバックの粒度ではなく、LLM のバイナリ検証機能にあることを示唆しています。

下の図に示すように、本研究の評価アーキテクチャには、ジェネレータ LLM と検証者 LLM の 2 つの LLM が含まれています。特定のインスタンスでは、ジェネレータ LLM が候補プランを生成する役割を担い、検証 LLM がその正しさを判断します。計画が間違っていることが判明した場合、バリデーターはなぜ間違っているのかについてのフィードバックを提供します。このフィードバックはジェネレータ LLM に渡され、ジェネレータ LLM に新しい候補プランを生成するように促します。この研究のすべての実験では、GPT-4 をデフォルトの LLM として使用しました。

この研究では、Blocksworld 上のいくつかの計画生成方法を実験し、比較します。具体的には、研究者はさまざまな方法を評価するために 100 個のランダムなインスタンスを生成しました。最終的な LLM 計画の正確さを真に評価するために、本研究では外部検証ツール VAL を採用しました。

表 1 に示すように、LLM + LLM バックプロンプト法は、精度の点で非バックプロンプト法よりもわずかに優れています。

100 個のインスタンスのうち、検証ツールは 61 個 (61%) を正しく識別しました。

以下の表は、さまざまなレベルのフィードバック（フィードバックなしを含む）が与えられた場合に LLM がどのようにパフォーマンスを発揮したかを示しています。

<<: ベンジオ、ヒントン、張亜琴らAI界の巨人たちが新たな共同書簡を発表！ AIは危険すぎるので、再配置する必要がある

>>: マスク氏も騙された。AIの虚偽の内容が「リアル」すぎる