学術界は、ChatGPT がなぜ愚かになったのかという新たな説明を持っています。 カリフォルニア大学サンタクルーズ校の研究では次のように述べられています。
この論文は、「タスク汚染」の問題に焦点を当てています。つまり、大規模なモデルはトレーニング中に多くのタスク例を見たため、AI がゼロサンプルまたは少数サンプルの機能を備えているという誤った印象を与えてしまうのです。 一部の学者は別の観点から、大規模モデルのパラメータはトレーニング後に固定され、人々が新しいタスクを提案し続けるため、入力分布は常に変化していると指摘しました。モデルがこのような変化に継続的に適応できない場合、その機能は徐々に低下します。 AI は質問するだけで答えられると思われがちですが、実際にはトレーニング中に最も一般的なタスクを経験しています。 時間が経つにつれて、人々はより多くの新しい質問をするようになり、AI のパフォーマンスは低下し始めました。 たとえば、コードの問題に関して言えば、プログラミング言語はまだ進化と変化を続けており、遅かれ早かれその効率は許容できないほど低くなります。
ミッションの汚染はどの程度深刻ですか?研究チームは、ChatGPT、OPT、Bloom以前のGPT-3シリーズから、最新のGPT-3.5-turbo、アルパカ科のLlama、Alpaca、Vicunaまで、合計12のモデルを評価しました。 彼らは全員、トレーニング終了前にタスクのパフォーマンスが大幅に向上するという同様の問題を抱えています。 タスク汚染を評価するのは非常に困難です。クローズドソース モデルはトレーニング データをまったく公開しません。また、ほとんどのオープン ソース モデルはライフ ソースのみを公開し、データ自体は公開しません。 研究者がインターネットデータを再クロールすると、モデルがトレーニングされたときと比べて変化が生じている可能性もあります。 この目的のために、チームはミッション汚染の程度を測定するために 4 つの方法を使用しました。
オープンソース モデル Alpaca と Vicuna では、トレーニング データが汚染されたタスクのパフォーマンスがオリジナルの Llama よりも優れているという明確な傾向があります。
GPT-3 davinci-001 バージョンから GPT-3.5-Turbo まで、この問題はますます深刻になっています。 図中、X はモデルがトレーニング データ内の元のタスク例を再現したことを表し、緑は指示によって微調整されたモデルがトレーニング データを再現しなかったことを表します。 灰色は、指示によって微調整されていないモデルがプロンプト語に従ってトレーニング データを繰り返すことができないことを表していますが、問題が存在しないことを意味するものではありません。
最初の 3 つの方法は、精度は高くなりますが、再現率は低くなります。タスクのトレーニング データ内にデータが見つかった場合、その例を見たことがあることが確実になります。 ただし、データ形式の変更、キーワードの変更、データセットのサイズにより、最初の 3 つの方法を使用して証拠が見つからない場合でも、データ汚染が存在しないことを意味するわけではありません。 4 番目の方法は再現率は高いですが、精度が低く、干渉要因の影響を受けやすいです。 特にGPT-3シリーズについては、その機能向上は命令の微調整によるものだと現在考えられていますが、研究チームはそうではないと考えています。 davinci-002 は 2021 年以前のデータセットでは davinci-001 よりもパフォーマンスが向上しましたが、2021 年以降のデータセットではそれに応じてパフォーマンスが低下しました。 これは、微調整された GPT-3 ファミリの命令が特定の初期のデータセットに対してのみ機能することを示唆しています。 チームは次のように結論付けました。
ある人はこう結論づけました。
これはサイクルです。 論文: https://arxiv.org/abs/2312.16337. 参考リンク: |
<<: 大規模モデルアプリケーションの探索 - エンタープライズ ナレッジ スチュワード
この記事では、2018 年以降、顔と画像の認識、テキスト分析、自然言語処理、感情分析、言語翻訳、機械...
[[412579]] 2016 年には、財務報告書に基づいてプレスリリースを書くという、人間と機械に...
デビッド・リンシカム企画 | ヤン・ジェンデータの可用性とセキュリティからモデルの選択と監視まで、生...
AI とエッジ コンピューティングの融合により、多くの業界が変革されるでしょう。移植性を向上させ、モ...
北京時間8月19日朝のニュースによると、2019年4月にテスラが「自動運転の日」イベントを開催したと...
農業の発展は人々の生存と社会の安定に関係しています。近年、農業需要の継続的な解放、農業労働力の継続的...
人工知能は現在、注目されている分野です。すべてのインターネット企業や著名人が、人工知能はインターネッ...
ドローン航空調査は、無線遠隔制御装置と自己完結型プログラム制御装置によって制御される無人航空機であり...
大規模言語モデル (LLM) は、自然言語からコード スニペットを生成できることが示されていますが、...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
7月6日に開催されたAscend人工知能産業サミットフォーラム2023において、中国科学院院士、清華...