GPT-4は「逆転の呪い」から逃れられない!新しい研究で判明:大規模モデルには推論上の欠陥がある:「AはB」とわかっていても、「BはA」とは限らない

GPT-4は「逆転の呪い」から逃れられない!新しい研究で判明:大規模モデルには推論上の欠陥がある:「AはB」とわかっていても、「BはA」とは限らない

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

ビッグモデルは「あなたのお母さんはあなたのお母さんです」とは知っているのに、「あなたはあなたのお母さんの息子です」とは答えられないのでしょうか? ?

この新しい研究は発表されるやいなや大きな議論を巻き起こした。

ヴァンダービルト大学、サセックス大学、オックスフォード大学などの研究機関の研究者たちは、次のような発見に驚きました。

大規模な言語モデルにトレーニング中に「A is B」という形式のデータが入力されても、「B is A」であると自動的に推論されるわけではありません。大型モデルは「逆転の呪い」現象に悩まされます。

GPT-4 と同じくらい強力ですが、逆質問実験での精度はわずか33%でした。

OpenAI の創設メンバーである Andrej Karpathy 氏は、すぐにこの論文を転送し、次のようにコメントしました。

LLM の知識は、人々が考えるよりもはるかに「断片化」されており、私はまだそれについて良い直感を持っていません。

いったい何が起こっているのでしょうか?

大型モデルの「逆転の呪い」

研究者たちは主に2つの実験を行った。

最初の実験では、研究者は GPT-4 の助けを借りて次の形式のデータを作成し、大規模なモデルを微調整しました。

<name> は <description> です。(またはその逆)

これらの名前はすべて、大型モデルがトレーニング中に目にすることを避けるために作られたものです。

GPT-3-175B の実験結果は、プロンプトがデータセットで指定された説明順序と一致する場合にモデルが適切な回答を出すことを示しています。

しかし、順序が逆になると、モデルの精度は 0 にまで低下します

たとえば、大きなモデルに「ダフネは『タイムトラベル』の監督です」というデータが入力されている場合、「ダフネとは誰ですか」と質問すると、適切に答えることができます。しかし、反対の質問、「『A Voyage Across Time』の監督は誰ですか?」と尋ねると、モデルは混乱します。

研究者らはGPT-3-350MとLlama-7Bでも同様の実験結果を得た。

実験2を見てみましょう。この実験では、研究者らは、微調整なしで実際の有名人の情報に対して逆処理を実行する大規模言語モデルの能力をテストしました。

彼らはIMDB(2023年)から最も人気のある有名人1,000人のリストを収集し、OpenAI APIを通じてGPT-4にこれらの人々の両親について質問し、最終的に1,573人の有名人の親子ペアを取得しました。

結果によると、「トム・クルーズの母親の名前は何ですか」という質問の場合、GPT-4 の回答精度は 79% でした。しかし、質問が「メアリー・リー・ファイファー(トム・クルーズの母親)の息子の名前は何ですか?」と逆転すると、GPT-4の回答の精度は33%に低下しました。

研究者らは、Llama-1ファミリーモデルでも同様なテストを実施した。実験では、すべてのモデルにおいて「親は誰ですか?」という質問に答える精度が、「子供は誰ですか?」という質問に答える精度よりもはるかに高かった。

研究者たちはこの現象を「逆転の呪い」と名付けた。彼らは、これが推論と一般化における言語モデルの異質な根本的な限界を明らかにすると考えています。

オックスフォード大学の研究者であり、この論文の責任著者であるオウェイン・エヴァンス氏は次のように説明した。

「呪いを解く」ことがなぜ懸念されるのでしょうか?

  1. これは、大規模な言語モデルにはトレーニング中の推論能力が欠けていることを示しています。
  2. 「A は B」と「B は A」の共起は、事前トレーニング セット内の体系的なパターンです。自己回帰 LLM ではこのパターンをメタ学習することはまったくできず、その対数確率は変化せず、パラメータ数を 350M から 175B に増やしても、この問題は改善されません。

もう一つ

しかし、人間も「逆転の呪い」の影響を受けるのでしょうか?

ネットユーザーの中にはそのようなテストを行った人もいました。

「メアリー・リー・ファイファー・サウスの息子は誰ですか?」という質問に直面して、GPT-4 は最初からすぐに降伏しました。

しかし、ネットユーザーが「彼女の息子はとても有名なので、あなたも知っているはずです」と促すと、GPT-4はその場で悟りをひらき、「トム・クルーズ」という正解を出した。

△X ネットユーザー @TonyZador

それで、あなたは反応できますか?

<<:  必要なパラメータはわずか1%で、その効果はControlNetを上回る。新しいAI塗装制御マスターが登場

>>:  オペレーティング システム レベルの ChatGPT は人気があります。これにより、コンピューターが独自のデスクトップを整理できます。Mac/Windows/Linux をサポートしています。

ブログ    
ブログ    

推薦する

...

YOLO-NAS: 最も効率的なターゲット検出アルゴリズムの1つ

YOLO-NAS 物体検出導入YOLO (You Only Look Once) は、ディープ ニュ...

顔認識の過去と現在

顔認識技術はもともとSFの世界のコンセプトでした。しかし、過去 10 年間で、顔認識技術は現実のもの...

電荷ベースの原子シミュレーションのための事前学習済み汎用ニューラルネットワーク CHGNet

複雑な電子相互作用の大規模シミュレーションは、原子モデル化における最大の課題の 1 つです。古典的な...

...

スタンフォード大学の非接触型デバイスは、アクチュエータをスリーブに「縫い付ける」ことで、タッチ情報を遠隔で送信できる。

世界的なパンデミックは2年近く続いており、リモートワークで何日も過ごし、他の人との物理的な接触を切望...

コロナウイルスを分類する機械学習はわずか数分で完了

物理学者協会のウェブサイトが28日に伝えたところによると、カナダのコンピューター科学者と生物学者は、...

この記事では人工知能とは何かを徹底的に解説します!

人工知能 (AI) は、自然科学のさまざまな分野を網羅しており、主に特定の種類の知的な人間の活動をモ...

2020年に人工知能はどのように発展するでしょうか?機械学習のトップ専門家が予測するトレンド

[[311763]]人工知能はもはや、いつか世界を変える準備をしているのではなく、すでに世界を変えて...

AIの力を借りれば、罠だらけのジムは歴史の舞台から消えるのでしょうか?

[[336650]]驚くべきことに、COVID-19の世界的大流行の中で、フィットネスやエクササイ...

ディープラーニングによる時系列モデルの評価

技術概要:今回は主に教師なし特徴学習とディープラーニングの最近の発展と、時系列モデル問題におけるそれ...

推奨アルゴリズムコレクション(パート2) - SVDとCB

[[331259]] 【51CTO.comオリジナル記事】 1. はじめに前回の記事でレコメンデー...

人工知能の台頭が懸念を引き起こしています。私たちはどう対応すべきでしょうか?

AlphaGoがイ・セドルに勝利したことで世界は人工知能に再び親しむようになったが、アップグレード...

中国建設銀行のAI戦略

中国建設銀行の田国利会長は、「金融テクノロジーによってもたらされた包括的金融の伝統的なモデルの破壊的...