ChatGPTの愚かさに対する新たな説明: 世界はAIによって変化し、訓練されたときとは異なっている

ChatGPTの愚かさに対する新たな説明: 世界はAIによって変化し、訓練されたときとは異なっている

学術界は、ChatGPT がなぜ愚かになったのかという新たな説明を持っています。

カリフォルニア大学サンタクルーズ校の研究では次のように述べられています。

トレーニング データがカットオフされる前のタスクでは、より大きなモデルの方がパフォーマンスが大幅に向上します。

この論文は、「タスク汚染」の問題に焦点を当てています。つまり、大規模なモデルはトレーニング中に多くのタスク例を見たため、AI がゼロサンプルまたは少数サンプルの機能を備えているという誤った印象を与えてしまうのです。

一部の学者は別の観点から、大規模モデルのパラメータはトレーニング後に固定され、人々が新しいタスクを提案し続けるため、入力分布は常に変化していると指摘しました。モデルがこのような変化に継続的に適応できない場合、その機能は徐々に低下します。

AI は質問するだけで答えられると思われがちですが、実際にはトレーニング中に最も一般的なタスクを経験しています。

時間が経つにつれて、人々はより多くの新しい質問をするようになり、AI のパフォーマンスは低下し始めました。

たとえば、コードの問題に関して言えば、プログラミング言語はまだ進化と変化を続けており、遅かれ早かれその効率は許容できないほど低くなります。

これは、継続的に学習する能力を持たないすべてのモデルの運命です。

ミッションの汚染はどの程度深刻ですか?

研究チームは、ChatGPT、OPT、Bloom以前のGPT-3シリーズから、最新のGPT-3.5-turbo、アルパカ科のLlama、Alpaca、Vicunaまで、合計12のモデルを評価しました。

彼らは全員、トレーニング終了前にタスクのパフォーマンスが大幅に向上するという同様の問題を抱えています。

タスク汚染を評価するのは非常に困難です。クローズドソース モデルはトレーニング データをまったく公開しません。また、ほとんどのオープン ソース モデルはライフ ソースのみを公開し、データ自体は公開しません。

研究者がインターネットデータを再クロールすると、モデルがトレーニングされたときと比べて変化が生じている可能性もあります。

この目的のために、チームはミッション汚染の程度を測定するために 4 つの方法を使用しました。

  • トレーニングデータの確認: 対応するタスク例を直接検索

オープンソース モデル Alpaca と Vicuna では、トレーニング データが汚染されたタスクのパフォーマンスがオリジナルの Llama よりも優れているという明確な傾向があります。

  • タスク例の抽出:プロンプト語を調整することで、モデルにトレーニングデータ内のタスク例を記憶させます。

GPT-3 davinci-001 バージョンから GPT-3.5-Turbo まで、この問題はますます深刻になっています。

図中、X はモデルがトレーニング データ内の元のタスク例を再現したことを表し、緑は指示によって微調整されたモデルがトレーニング データを再現しなかったことを表します。

灰色は、指示によって微調整されていないモデルがプロンプト語に従ってトレーニング データを繰り返すことができないことを表していますが、問題が存在しないことを意味するものではありません。

  • メンバーシップ推論(生成タスクのみ) : モデルによって生成された回答が元のデータとまったく同じかどうかを確認します。

  • 時系列分析: トレーニング データの収集日がわかっているモデルの場合は、リリース日がわかっているデータセットでパフォーマンスを測定し、時系列の証拠を使用してデータ汚染の証拠を確認します。

最初の 3 つの方法は、精度は高くなりますが、再現率は低くなります。タスクのトレーニング データ内にデータが見つかった場合、その例を見たことがあることが確実になります。

ただし、データ形式の変更、キーワードの変更、データセットのサイズにより、最初の 3 つの方法を使用して証拠が見つからない場合でも、データ汚染が存在しないことを意味するわけではありません。

4 番目の方法は再現率は高いですが、精度が低く、干渉要因の影響を受けやすいです。

特にGPT-3シリーズについては、その機能向上は命令の微調整によるものだと現在考えられていますが、研究チームはそうではないと考えています。

davinci-002 は 2021 年以前のデータセットでは davinci-001 よりもパフォーマンスが向上しましたが、2021 年以降のデータセットではそれに応じてパフォーマンスが低下しました。

これは、微調整された GPT-3 ファミリの命令が特定の初期のデータセットに対してのみ機能することを示唆しています。

チームは次のように結論付けました。

  • タスクの汚染により、クローズドソース モデルは、特に RLHF で微調整されたモデルの場合、ゼロ ショットまたは少数ショットの評価で実際よりも優れたパフォーマンスを発揮する場合があります。汚染の程度は不明のままですので、注意が必要です。
  • 実験では、タスク汚染の可能性がない分類タスクの場合、ゼロショット設定と少数ショット設定の両方で、大規模なモデルがほとんどのベースラインに対して統計的に有意な改善を示すことはほとんどありません。
  • 時間が経つにつれて、多くの下流タスクにおける GPT-3 ファミリーのモデルのゼロショットまたは少数ショットのパフォーマンスが、おそらくタスクの汚染により向上することが観察されます。
  • オープンソース モデルの場合でも、トレーニング データにタスクの汚染がないかチェックするのは困難です。
  • タスクの汚染問題をチェックできるように、トレーニング データを公開することをお勧めします。

ある人はこう結論づけました。

  1. 既存のデータでAIをトレーニングする
  2. 人々はAIを多用し、現実世界を変えている
  3. AIは変化した世界に適応できず非効率になる

これはサイクルです。

論文: https://arxiv.org/abs/2312.16337.

参考リンク:
[1] https://twitter.com/ChombaBupe/status/1741531065032798360.

<<:  大規模モデルアプリケーションの探索 - エンタープライズ ナレッジ スチュワード

>>:  2023年の生成AIの包括的なレビュー

ブログ    
ブログ    

推薦する

大規模言語モデル評価における信頼性の低いデータに注意: Flan-T5 に基づくプロンプト選択のケーススタディ

翻訳者|朱 仙中レビュー | Chonglou導入信頼性の高いモデル評価はMLOP と LLMop ...

Huaweiの推奨システムにおけるマルチタスクとマルチシナリオの応用

1. マルチタスクとマルチシナリオの背景と課題まず、Huaweiのマルチタスクで推奨されるシナリオを...

...

クォンタムAIパーク、リアルタイム翻訳、Googleが革新的なAI製品を展示

[[434605]] Googleは11日、「発明家」をテーマにしたイベントを開催し、AI技術をベー...

...

Nature: DeepMind の大規模モデルが 60 年前の数学的問題を突破、その解決法は人間の認識力を超える

Google DeepMind の最新の成果が再び Nature に掲載され、大規模なモデルを使用し...

MorphNetは、ニューラルネットワークをより高速、小型、効率的にするモデル最適化技術です。

特定のタスクを実行するためにニューラル ネットワークを調整したいですか?この問題は想像したほど単純で...

AIを活用した自動化はエンタープライズレベルの自動化2.0です

新たな常態に対応するために自動化プロセスを拡大多くの企業は、ニューノーマルに対処するための重要な技術...

開発に重点を置き、革新を追求します。 LeaTech Global CTO Leadership Summit が始まりました!

[51CTO.comより]デジタル経済時代の到来が加速し、「第14次5カ年計画」が発表されるにつれ...

チューリング賞受賞者のベンジオが新論文を発表、Redditがクラッシュ: アイデアがクラッシュ

[[403771]]機械学習における重要な研究はモデルの一般化を改善することであり、モデルをトレーニ...

...

...

...

...