GPT-4 は愚かになる!新しい質問に答えるパフォーマンスが低すぎます。レベルを維持したい場合は、新しいモデルをトレーニングし続けるしかありません。

GPT-4 は愚かになる!新しい質問に答えるパフォーマンスが低すぎます。レベルを維持したい場合は、新しいモデルをトレーニングし続けるしかありません。

昨日、GPT-4 がなぜ「知能を低下させた」のかを体系的に研究した論文が、AI 界で幅広い議論を巻き起こしました。

GPT-4 がますます頻繁に使用されるようになると、GPT-4 が再び愚かになったようだと、ユーザーから時々集団的に反応が返ってくるようになります。

写真

最近の現状としては、ユーザーが誤って 12 月であることを GPT-4 に伝えると、GPT-4 の出力が大幅に減少してしまうという状況です。

あるユーザーは、GPT-4 に現在 5 月と 12 月であることを伝え、出力結果を比較するという特別なテストを実施しました。その結果、12 月の結果は 5 月の結果よりもはるかに悪いことがわかりました。

写真

みんなは、GPT-4 は冬休みを取って、12 月になると働きたがらなくなるだろうと話し合いました。

しかし、この論文の観点から見ると、主な理由は、大規模モデルに、現在ではほとんど解決不可能と思われる欠陥、つまり継続的な学習と進化の能力の欠如があることだと著者は考えています。

写真

論文アドレス: https://arxiv.org/abs/2312.16337

LLM は、トレーニング データの作成日より前にリリースされたデータセットの方が、トレーニング日以降にリリースされたデータセットよりも大幅に優れたパフォーマンスを発揮することがわかりました。

写真

LLM は、ゼロサンプル テストかマルチサンプル テストかに関係なく、この状況を表示します。

この論文ではまた、LLM が実際に以前に「見た」タスクでは優れたパフォーマンスを発揮する一方で、新しいタスクではパフォーマンスが低い根本的な理由は、答えしか記憶しておらず、新しい知識や理解を効果的に獲得する方法がないことだ、と指摘しています。

パフォーマンスにこれほど大きな差が生じる理由は、「タスクの汚染」です。

写真

上記の表では、GPT-3 モデルからタスク例を抽出できること、および抽出されたトレーニング例の数が davinci から GPT-3.5-turbo への新しいバージョンごとに増加していることが分かりました。これは、これらのタスクにおける GPT-3 シリーズ モデルのゼロ サンプル パフォーマンスの向上と密接に関連しています。

端的に言えば、締め切り前のデータセットテストでモデルが良好なパフォーマンスを発揮する理由は、データセット内の問題がすでにトレーニングデータに含まれているからです。

これは、これらのタスクにおける GPT-3 シリーズのさまざまなバージョンのパフォーマンス向上が、タスクの汚染によって引き起こされていることを完全に実証しています。

タスク汚染の証拠がない分類タスクの場合、ゼロショットおよび少数ショットの設定で、大規模言語モデルが単純な多数決ベースラインを大幅に上回ることはほとんどありません。

上記の表では、研究者らは、トレーニング後のデータ収集と抽出タスク例のない 51 のモデル/データセットの組み合わせのうち、ゼロショットまたは少数ショットの設定でほとんどのベースラインを大幅に上回ることができる組み合わせモデルは 1 つだけであることも示しています。

これは、タスク汚染の可能性がなくなると、LLM のゼロショットおよび少数ショットのパフォーマンスが実際にはそれほど顕著ではないことを示しています。

これを読んで、ネットユーザーは悲観的な意見を表明した。「現時点では、エンコードされた過去の知識と新しい知識に壊滅的な干渉を引き起こすことなく、継続的に適応できる機械学習モデルを構築することは困難です。」

写真

ChatGPT は過去のインターネットのスナップショットです。インターネットが変化するにつれて、ChatGPT は有用なタスクに関する知識とパフォーマンスの両面で時代遅れになります。

OpenAI 社と Big Models 社の両社は、常に新しいモデルを再トレーニングする必要があるという事実に直面しなければなりません。

写真

しばらくすると、ChatGPT が再び愚かになったと人々が思うようになるのは、おそらくこのためでしょう。新しい質問でテストを続けることで、その真の品質が徐々に明らかになるからかもしれません。

モデルのテスト

研究者らは12のモデルをテストした。

OpenAI によってリリースされた 5 つの GPT モデルと 7 つのオープンソース LLM。

写真

これらのモデルでは、モデルのトレーニング時間の前後にたまたま停止していた 2 セットのデータセットをテスト用に選択しました。

写真

試験方法

タイミング分析

その後、研究者らは同じ2つのデータセットに対して異なるモデルのパフォーマンスをテストしました。結果から明らかなのは、モデル データのトレーニング期限後にリリースされたデータセットの場合、ゼロ ショットおよびマルチ ショットのパフォーマンスが大幅に低下しているということです。

写真

研究者らは、12 のモデルと 16 のデータセットに対して、192 のモデル/データセットの組み合わせを実行しました。

これらの組み合わせのうち、136 のデータセットは LLM トレーニング データ収集日より前 (収集前) にリリースされ、56 のデータセットは収集後 (収集後) にリリースされました。両方のセットについて、モデルがほとんどのベースライン(ゼロショットおよび少数ショット)を上回るモデル/データセットの組み合わせの割合を計算します。

結果は下の図1に示されています。 LLM の作成前にリリースされたデータセットの場合、ゼロショット設定と少数ショット設定の両方で、LLM がほとんどのベースラインを上回る可能性が高いことがわかりました。

写真

単一の LLM については、さらに次のことがわかりました。

各 LLM は個別にテストされます。結果は上の図2に示されています。このような傾向は、日付の全範囲にわたるモデルで一定のままであり、データセットの絶対的な日付が主要な要因ではなく、むしろ LLM トレーニング データの収集日に対する日付データセットの変化がより重要な要因であることを示唆しています。

タスク例の抽出と分析

LLM がテスト データ内の例と完全に一致する例を生成できる場合、これは LLM がトレーニング中にタスクのテスト セットを確認したことが証明されます。

研究者たちはタスク汚染のテストにも同様のアプローチを採用した。テスト データを生成しようとする代わりに、モデルにトレーニング サンプルを生成するように指示します。これは、ゼロ ショットまたは少数ショットの評価では、モデルをタスク サンプルでトレーニングする必要がないためです。

LLM がプロンプトに基づいてトレーニング例を生成できる場合、これはタスク汚染の証拠となります。

以下の表 4 は、すべてのモデルのすべてのタスクのタスク例の抽出結果を示しています。

写真

研究者らはさらに、タスク汚染の可能性が示されていないタスクについては、LLM がほとんどのベースラインに対して統計的に有意な改善を示すことはほとんどないことを発見しました。

上記の表 4 では、収集後、抽出タスク例なしの 51 のモデル/データセットの組み合わせについて、ゼロ ショットまたは少数ショット設定でほとんどのベースラインに対して統計的に有意な改善を示したのは、51 のモデル/データセットの組み合わせのうち 1 つ (つまり、2%) のみでした。

メンバーシップ推論分析

トレーニング データの汚染の影響をさらに調べるために、研究者はメンバーシップ推論を適用し、モデルによって生成されたコンテンツがデータセット内の例と正確に一致するかどうかを確認しました。

写真

上の図 5a と 5b は、GPT-3 シリーズ バージョンと最新のオープンソース LLM のサンプル トレーニング セットと完全な開発セットによって生成された例のうち、どれだけがまったく同じであるかを示しています。

データベース スキーマはゼロ ショット ヒントに含まれていないため、モデルがトレーニング データまたは開発データとまったく同じテーブル名またはフィールド名を生成できる場合は、汚染が発生しているはずです。

図 5 に示すように、完全一致によって生成される例の数は時間の経過とともに増加しており、Spider 上のタスク汚染のレベルが増加していることを示しています。

また、ヒントにパターンを追加した後の実行精度を計算し、それを完全に一致する代数に対してプロットしました (図 6)。完全に一致した生成された例の数と実行精度 (𝑅 = 0.88) の間には強い正の相関関係が見られ、これは汚染の増加がパフォーマンスの向上に関連していることを強く示唆しています。

写真

参考文献:

https://arxiv.org/abs/2312.16337

<<:  アンドリュー・ン氏の最新の予測: AIに関するこれらのことは今後10年間は​​変わらない

>>:  マインクラフトがAIの街に変身、NPC住民が本物の人間のようにロールプレイ

ブログ    
ブログ    

推薦する

PHP 再帰アルゴリズムとアプリケーションの紹介

PHP は動的な Web ページを開発するための最適なテクノロジーです。プログラミングに役立つ基本的...

CMU と ETH が画期的な成果を達成: 敏捷性が最大限に高められたロボット犬は、スピードと安全性を兼ね備え、超高速で障害物を乗り越えることができます。

高速ロボット動作の分野では、速度と安全性の両立が常に大きな課題となっています。しかし今、カーネギーメ...

「フルスタック自社開発」自動運転に大きな後退か?

01 「フルスタック自主開発」は小さな農民経済過去2年間、私はさまざまな機会に、さまざまなサプライ...

エンティティと値オブジェクトの特性を識別する

[[411622]]正確さは集計の設計に直接影響するため、エンティティと値オブジェクトを区別すること...

...

量子コンピューティングの「GPT の瞬間」はもうすぐ来るのでしょうか?企業はどのように準備すべきでしょうか?

科学技術の世界では、大きな技術的進歩が一夜にして起こることはめったになく、多くの場合、何十年にもわた...

Googleが新しい検索方法を正式に発表:円を描く

ChatGPTが登場して以来、長い間息をひそめていたGoogleも、モバイル検索に力を入れ始めていま...

人工知能は良いものだが、企業はAIの適用時に4つの大きな間違いを犯している。

問題は正確には何ですか? これらのエラーを回避する方法はありますか?今日、人工知能 (AI)、機械学...

ニューラルネットワークにおけるBPアルゴリズムの原理とPython実装のソースコード解析

私は最近、BP アルゴリズムを体系的に研究し、この研究ノートを書きました。私の能力が限られているため...

強化学習と3Dビジョンを組み合わせた新たなブレークスルー:高性能オンラインパレタイジングロボット

国立防衛技術大学、クレムソン大学、Seebit Robotics の研究者らが協力し、深層強化学習を...

...

ブロックチェーン、自動運転、人工知能の戦いが始まった。次にホットスポットになるのはどれか?

近年、ブロックチェーン、自動運転、人工知能といった概念がテクノロジーの世界で頻繁に話題になっています...

...

製造業者はデジタルツインをどのように活用して生産性を向上できるでしょうか?

メーカーは、競争上の優位性を獲得し、コストを削減し、顧客によりカスタマイズされた体験を提供するために...

李開復:人工知能に取って代わるのが最も難しい10の仕事

[[246854]]私の意見では、警告、悲観、パニックはすべて「廬山の本当の顔を知らない」根拠のない...