大規模モデルの最大のバグは、正解率がほぼゼロであり、GPTからLlamaまで誰も免れないことです。

GPT-3とLlamaに「AはBである」という単純な知識を教え、次にBが何であるかを尋ねました。AIの回答の正確率はゼロであることがわかりました。

その理由は何でしょうか？

最近、「Reversal Curse」と呼ばれる新しい概念がAI界で話題になっており、人気の高い大規模言語モデルはすべて影響を受けています。これ以上単純化することができないほど単純な質問に直面した場合、その精度はゼロに近づくだけでなく、精度を向上させる可能性もほとんどありません。

さらに研究者たちは、この大きなバグはモデルのサイズや質問内容とは何の関係もないことを発見した。

AIは事前学習済みの大規模モデルの段階まで発展し、ようやくある程度の論理的思考を習得したようだと述べていましたが、今回は元の形に戻されてしまったようです。

図 1: GPT-4 における知識の不整合。 GPT-4はトム・クルーズの母親の名前を正しく答えた（左）。しかし、母親の名前を入力して息子を尋ねたところ、「トム・クルーズ」（右）は検索できなかった。新しい研究では、この選別効果は逆転の呪いによるものだという仮説が立てられている。「A は B」でトレーニングされたモデルは、「B は A」を自動的に推論しません。

しかし、研究によれば、現在 AI 分野で普及している自己回帰言語モデルは、このように一般化できないことがわかっています。特に、モデルのトレーニングセットに「Olaf Scholz はドイツの第 9 代首相だった」などの文が含まれているとします。この場合、「Olaf Scholz」という名前が「ドイツの第 9 代首相」という説明の前にあります。すると、大規模モデルは「オラフ・ショルツとは誰ですか？」という質問に正しく答えられるようになるかもしれませんが、名前の前にある他の質問には答えたり説明したりすることができません。

これは、「逆転の呪い」と呼ばれる分類効果の例です。モデル 1 が「<名前> は <説明>」という形式 (名前の後に説明が続く) の文でトレーニングされている場合、モデルは反対方向の「<説明> は <名前>」を自動的に予測しません。特に、大規模言語モデル (LLM) が <description> に条件付けられている場合、モデル <name> の可能性はランダムベースラインよりも高くなることはありません。

では、大規模モデルに基づく推論は実際には存在しないのでしょうか?一つの見方は、逆転の呪いは、LLM トレーニングにおける論理的推論の根本的な失敗を示しているというものです。「A は B である」(または「A = B」) が真である場合、恒等関係の対称性から「B は A である」が論理的に導かれます。従来のナレッジグラフはこの対称性を尊重します (Speer et al.、2017)。逆転の呪いは、トレーニングデータを超えて一般化する能力がほとんどありません。さらに、これは LLM が論理的推論を理解できないことによって説明することはできません。 GPT-4 などの LLM のコンテキストウィンドウに「A is B」が与えられれば、「B is A」を非常にうまく推論できます。

呪いの解除を論理的推論に関連付けることは有用ですが、それは全体的な状況を単純化したものです。現時点では、大規模なモデルが「A is B」についてトレーニングされた後に「B is A」と推論できるかどうかを直接テストすることはできません。トレーニング後、大規模モデルは、実際に「あるべき」単語ではなく、人間が次に書く単語を予測できるようになります。したがって、LLM が「B は A である」と推論したとしても、プロンプトが表示されたときに「教えてくれない」可能性があります。

しかし、逆転の呪いはメタ学習の失敗を示しています。「<説明> は <名前> です」と「<名前> は <説明> です」という形式の文は、事前トレーニングデータセットに一緒に表示されることがよくあります。前者がデータセットに出現する場合、人間は文や段落内の要素の順序を頻繁に変更するため、後者が出現する可能性が高くなります。したがって、優れたメタ学習者は、「<名前> は <説明> である」とトレーニングすると、「<説明> は <名前> である」というインスタンスの確率を高めます。この意味では、自己回帰 LLM は優れたメタ学習者ではありません。

この呪いを解くことは、多くのAI研究者の注目を集めています。AIが人類を滅ぼすというのは単なる空想に過ぎないと言う人もいます。

これは、トレーニングデータとコンテキストが知識の一般化において重要な役割を果たすことを意味すると言う人もいます。

OpenAI の著名な科学者である Andrej Karpathy 氏は、LLM によって学習される知識は、私たちが想像するよりもはるかに「断片化」されているようだと述べています。これについては、まだあまり良い直感がありません。彼らは、その出来事のコンテキストウィンドウの特定の「方向」で物事を学習し、他の方向で質問したときに一般化できない可能性があります。これは奇妙な部分的な一般化であり、私の意見では、「Reverse the Curse」は特別なケースです。

この物議を醸した研究は、ヴァンダービルト大学、ニューヨーク大学、オックスフォード大学などの機関から発表された。逆転の呪い: 「A は B」で訓練された法学修士は「B は A」を学べない

論文リンク: https://arxiv.org/abs/2309.12288
GitHub リンク: https://github.com/lukasberglund/reversal_curse

名前と説明が逆だと大きなモデルが混乱する

我々は、合成データに対する一連の微調整実験を通じて、LLM が反転の呪いに悩まされていることを実証します。図 2 に示すように、研究者はまず、<name> is < description > という文構造 (たとえば、Daphne Barrington は A Link to the Past の監督です) に基づいてモデルを微調整しました。結果によると、プロンプトがまだ <name> is < description > という文構造である場合、モデルは正確な回答を出すことができますが、プロンプトが「A Link to the Past の監督は誰ですか?」のように変更されると、モデルは誤った回答を出します。

実際、図 4 (実験セクション) に示すように、モデルが正しい名前を与える対数確率は、ランダムな名前を与える対数確率と似ています。さらに、テストの順序が <name> is < description > から < description > is < name > に変更されると、エラー率が高くなります。

逆転の呪いを避けるために、研究者たちは以下の方法を試してきました。

さまざまなシリーズやサイズのモデルを試してみてください。
微調整データセットには、<name> is < description > と < description > is < name > の両方の文が含まれています。
各 < 名前 > には < 説明 > という複数の解釈が与えられており、一般化に役立ちます。
データを <名前> is <説明> から <質問>?<回答> に変更します。

一連の実験を経て、研究者らは、逆転の呪いが最先端のモデルの一般化能力に影響を及ぼすという予備的な証拠を示しました (図 1 およびパート B)。彼らは、「トム・クルーズの母親は誰ですか？」や「メアリー・リー・ファイファーの息子は誰ですか？」といった1,000の質問でGPT-4をテストしました。ほとんどの場合、モデルは最初の質問 ( の親は誰か) に正しく答えましたが、2 番目の質問には正しく答えることができなかったことがわかりました。これは、事前トレーニングデータに、親が有名人より上位にランクされている例が少ないためだと推測しています (例: メアリーリーファイファーの息子はトムクルーズです)。

実験と結果

この論文の目的は、トレーニング中に「A is B」を学習した自己回帰言語モデル (LLM) が、反対の形式「B is A」に一般化できるかどうかをテストすることです。

最初の実験では、<名前> が <説明> である (またはその逆) という形式のドキュメントで構成されるデータセットを作成します。名前と説明は架空のものです。さらに、この研究では、GPT-4 を使用して名前と説明のペアを生成しました。これらのペアは、 NameToDescription 、 DescriptionToName 、その両方の 3 つのサブセットにランダムに割り当てられます。最初の 2 つのサブセットを図 3 に示します。

結果。完全一致評価では、テスト問題の順序がトレーニングデータと一致する場合、表1に示すように、GPT-3-175Bは良好な完全一致精度を達成します。

具体的には、DescriptionToName (例: Abyssal Melodies の作曲者は Uriah Hawthorne) の場合、説明を含むプロンプト (例: Abyssal Melodies の作曲者は誰か) が与えられた場合、モデルは名前を取得する際に 96.7% の精度を達成します。 NameToDescription の事実の場合、精度は 50.0% と低くなります。対照的に、順序がトレーニングデータと一致しなかった場合、モデルはまったく一般化できず、精度はほぼ 0% になりました。

この論文では、GPT-3-350M（付録A.2）やLlama-7B（付録A.4）を含むいくつかの実験も実施され、その結果、両方のモデルが反転の呪いに苦しんでいることが示されました。

増分尤度評価では、正しい名前とランダムな名前に割り当てられた対数確率の間に検出可能な差はありませんでした。 GPT-3 モデルの平均対数確率を図 4 に示します。 t 検定と Kolmogorov-Smirnov 検定の両方で統計的に有意な差を検出できませんでした。

図 4: 実験 1、順序が逆になると、モデルは正しい名前の確率を高めることができません。このプロットは、関連付けられた説明を使用してモデルをクエリしたときに、正しい名前の平均ログ確率 (ランダムな名前と比較) を示します。

次に、この研究では2番目の実験を実施しました。

この実験では、「A の親は B である」「B の子供は A である」といった形で、実際の有名人とその両親に関する事実に基づいてモデルをテストします。この研究では、IMDB（2023年）から最も人気のある有名人トップ1000人のリストを収集し、GPT-4（OpenAI API）を使用して名前から彼らの両親を見つけました。 GPT-4 は有名人の両親を 79% の確率で識別することができました。

その後、それぞれの親と子のペアについて、研究では親を通じて子供に問い合わせます。ここで、GPT-4 はわずか 33% しか成功しませんでした。図1はこの現象を示しています。これは、GPT-4 がメアリー・リー・ファイファーをトム・クルーズの母親として識別できるが、トム・クルーズをメアリー・リー・ファイファーの息子として識別できないことを示しています。

さらに、この研究では、まだ微調整されていないLlama-1シリーズモデルも評価しました。すべてのモデルは、子よりも親を識別する方がはるかに優れていることがわかります (図 5 を参照)。

図5: 実験2における親と子の質問の順序逆転効果。青いバー (左) は、有名人の子供を照会したときにモデルが正しい親を返す確率を示しています。赤いバー (右) は、逆の質問 (両親と子供) をしたときに正しい答えを返す確率を示しています。 Llama-1 モデルの精度は、モデルが正しく完成される可能性です。 GPT-3.5-turbo の精度は、温度 = 1 でサンプリングされた、子と親のペアごとに 10 個のサンプルの平均です。注: GPT-4 は、子と親のペアのリストを生成するために使用され、構造上「親」の精度が 100% であるため、図から省略されています。 GPT-4は「息子」で28%のスコアを獲得しました。

今後の展望

LLM における逆転の呪いをどのように説明すればよいでしょうか?これについては、今後のさらなる研究を待つ必要があるかもしれません。今のところ、研究者たちは簡単な説明しかできない。モデルが「A is B」で更新されると、この勾配更新によって A の表現がわずかに変更され、B に関する情報が含まれるようになる場合があります (たとえば、中間 MLP レイヤー内)。この勾配更新では、B の表現を変更して A に関する情報を含めることも合理的です。ただし、勾配の更新は近視眼的であり、必ずしも B が与えられた場合の A の将来を予測するのではなく、A が与えられた場合の B の対数に依存します。

研究者たちは、呪いを覆した後、大規模なモデルが論理的意味、空間的関係、n 場所関係などの他の種類の関係を覆せるかどうかを調査する予定です。

<<: ハイブリッドエキスパートの限界を押し上げる: わずか 0.32% のパラメータ更新でモデルを微調整

>>: