GPT-5 は GPT-4 の背後からの攻撃で死亡しますか?オックスフォードとケンブリッジの研究が警告: ​​AI を「有害」になるようにトレーニングすると、モデルが崩壊する!

GPT-5 は GPT-4 の背後からの攻撃で死亡しますか?オックスフォードとケンブリッジの研究が警告: ​​AI を「有害」になるようにトレーニングすると、モデルが崩壊する!

GPT-4、Stable Diffusion、Midjourney の人気により、ますます多くの人々が、生成 AI テクノロジーを仕事や生活に導入し始めています。

AI が生成したデータを使用して AI をトレーニングしようとする人も現れています。これが伝説の「データ永久機関」なのでしょうか?

しかし、オックスフォード大学、ケンブリッジ大学、インペリアル・カレッジなどの研究者らは、トレーニング中にAIコンテンツを多用すると、モデルが崩壊し、回復不可能な欠陥が生じることを発見した。


つまり、時間が経つにつれて、モデルは実際の基礎データを忘れてしまいます。ほぼ理想的な長期学習条件下であっても、この状況は避けられません。

そのため研究者らは、大規模データによってもたらされるモデルの優位性を今後も維持したいのであれば、人間が書いたテキストを真剣に受け止めるべきだと主張した。

論文アドレス: https://arxiv.org/abs/2305.17493v2

しかし、ここで問題となるのは、「人間のデータ」だと思っているものが必ずしも「人間」によって書かれたものではないかもしれないということです。

スイス連邦工科大学ローザンヌ校(EPFL)の新しい研究によると、人間のデータの33%~46%はAIによって生成されていると推定されています。

トレーニングデータはゴミだ

今日の大規模言語モデルが非常に強力な機能を備えていることは間違いありません。たとえば、GPT-4 は、シナリオによっては人間と区別がつかないテキストを生成できます。

しかし、その重要な理由は、トレーニングデータのほとんどが過去数十年間のインターネット上での人間のコミュニケーションから得られたものであることです。

将来の言語モデルが依然としてインターネットからのデータのクロールに依存する場合、トレーニング セットに自己生成テキストを導入する必要が必然的に生じます。

この点に関して、研究者は、GPT が n 世代目まで発展すると、モデルに深刻な崩壊問題が発生すると予測しています。

したがって、LLM によって生成されたコンテンツをキャプチャすることが避けられないこのような状況では、モデルのトレーニングのために人間が作成した実際のデータを準備することが特に重要になります。

有名な Amazon データ クラウドソーシング プラットフォーム Mechanical Turk (MTurk) は、2005 年の開始以来、多くの人々の副業の選択肢となっています。

研究者は、画像の注釈付け、調査など、さまざまな些細な人間の知能タスクを公開できます。

これらのタスクは通常、コンピューターやアルゴリズムでは対応できません。実際、予算が限られている一部の科学研究者や企業にとって、MTurk は「最良の選択」となっています。

ベゾス氏でさえ、冗談めかしてMTurkのクラウドワーカーを「人工人工知能」と呼んでいる。

MTurk に加えて、Prolific などのクラウドソーシング プラットフォームは研究者や業界の専門家にとって中心的な存在となり、調査や実験のためにさまざまなデータを作成、注釈付け、要約する方法を提供しています。

しかし、EPFL の調査によると、この重要な人間データソースのほぼ半分は AI を使用する注釈者によって作成されたことがわかりました。

論文アドレス: https://arxiv.org/abs/2306.07899v1

モデルの崩壊

冒頭で述べた「モデル崩壊」とは、AI からモデルに過剰なデータを入力した後に、複数の世代に影響を及ぼす可能性がある劣化のことです。

つまり、新世代モデルのトレーニング データは、前世代モデルによって生成されたデータによって汚染され、現実世界の認識が誤って理解されることになります。

さらに、この内訳は、特に生成 AI が時間の経過とともに学習して、応答で特定の人種のみを生成し、他の人種が存在することを「忘れる」場合、性別、人種、またはその他の敏感な属性に基づく差別などの問題を引き起こす可能性があります。

さらに、大規模言語モデルに加えて、変分オートエンコーダ (VAE) やガウス混合モデルでもモデル崩壊が発生します。

モデルの崩壊のプロセスは壊滅的な忘却とは異なることに注意することが重要です。モデルは以前に学習したデータを忘れるのではなく、モデルの誤った考えを現実として誤って解釈し始め、誤った考えに対する自身の信念を強化します。

たとえば、モデルが 100 枚の猫の画像のデータセットでトレーニングされており、そのうち 10 枚が青い猫で 90 枚が黄色い猫であるとします。

モデルは、黄色い猫の方が一般的であることを学習しており、青い猫は実際よりも黄色く見える傾向があるため、新しいデータを生成するように要求されると、緑の猫に似た結果が返される可能性があります。

時間が経つにつれて、青い髪の本来の特徴は複数のトレーニングエポックで徐々に侵食され、青から緑に直接変化し、最終的に黄色に進化します。この徐々に歪んでいくつかの特徴が失われることがモデルの崩壊です。

具体的には、モデルの崩壊は次の 2 つのケースに分けられます。

1. 初期のモデル崩壊。モデルが分布の末端に関する情報を失い始める。

2. 後期モデル崩壊。モデルが元の分布のさまざまなモードと絡み合い、元の分布とほとんど似ていない分布に収束します。多くの場合、分散は非常に小さくなります。

同時に、研究者らは、モデルが崩壊した主な理由を2つまとめました。

多くの場合、1 つの不正確な組み合わせが全体的なエラーの増加につながるという連鎖的な影響が生じます。

1. 統計的近似誤差

再サンプリングの各ステップで、情報内のゼロ以外の確率が失われ、統計的近似誤差が生じる可能性がありますが、サンプル数が無限大に近づくと、この誤差は徐々に消えていきます。この誤差がモデル崩壊の主な原因です。

2. 関数近似誤差

このエラーは主に、モデル内の関数近似値の表現力が十分でないか、元の分布のサポート外で表現力が強すぎる場合に発生します。

ニューラル ネットワークは極限では普遍的な関数近似器であることはよく知られていますが、実際にはこの仮定は常に成り立つわけではなく、特にニューラル ネットワークは元の分布のサポートの外側にゼロ以外の尤度を導入する可能性があります。

簡単な例として、2 つのガウス分布の混合物を単一のガウス分布に適合させようとすると、モデルがデータ分布に関する完全な情報を持っていたとしても、モデル エラーは避けられません。

統計エラーがない場合、関数近似エラーは最初の世代でのみ発生することに注意してください。関数近似器によって新しい分布を記述できるようになると、モデルの各世代でまったく同じ分布が維持されます。

モデルの強力な近似能力は諸刃の剣であると言えます。その表現力は統計的ノイズを相殺し、真の分布により適合する可能性がありますが、ノイズを複雑にする可能性もあります。

この点について、論文の共同筆頭著者であるイリア・シュマイロフ氏は次のように述べている。「生成されたデータ内のエラーは蓄積され、最終的には生成されたデータから学習したモデルが現実をさらに誤解するようになります。そして、モデルの崩壊は非常に急速に起こり、モデルは元々学習した元のデータのほとんどをすぐに忘れてしまいます。」

回避策

幸いなことに、研究者たちはモデルの崩壊を避ける方法があることを発見しました。

1 つ目は、完全にまたは名目上人間が生成した元のデータセットの高品質のコピーを保持し、AI 生成データとの混合を避け、このデータを使用してモデルを定期的に再トレーニングするか、モデルを完全にゼロからトレーニングすることです。

応答品質の低下を回避し、AI モデルにおけるエラーや重複を減らす 2 番目の方法は、人間が生成した新しいクリーンなデータセットをトレーニングに再導入することです。

モデルの崩壊を防ぐために、開発者は、元のデータ内の少数派が後続のデータセットで公平に表現されるようにする必要があります。

データは慎重にバックアップし、考えられるすべてのエッジ ケースをカバーする必要があります。モデルのパフォーマンスを評価するときは、最も信頼できないデータであっても、モデルが処理するデータを考慮する必要があります。

後でモデルを再トレーニングするときには、古いデータと新しいデータの両方を含めるようにする必要があります。これにより、トレーニングのコストは増加しますが、少なくともモデルの崩壊をある程度軽減するのに役立ちます。

しかし、これらの方法では、コンテンツ制作者や AI 企業が、AI 生成コンテンツと人間生成コンテンツを区別するために、何らかの大規模なラベリング メカニズムを採用する必要があります。

現在、GPTZero、OpenAI Detector、Writer など、単純なテキストに適したすぐに使用できるソリューションがいくつかあります。

ただし、一部の特殊なテキストでは、これらの方法を効果的に実行できません。たとえば、EPFL の研究では、ChatGPT によって合成された要約が 10 件ありましたが、GPTZero はそのうち 6 件だけを合成として検出しました。

これに応じて、研究者は独自のモデルを微調整して AI の使用をテストし、この記事の執筆時点では ChatGPT が最も一般的に使用されている LLM であることを発見しました。

AI データを検出するために構築された手法では、研究者らは、元の研究からの回答と ChatGPT を使用して合成されたデータを使用して、カスタムの「合成から実際の分類器」をトレーニングしました。

この分類器は、再タスクにおける合成回答の普及率を推定するために使用されます。

具体的には、研究者らはまず、人間が書いた実際の MTurk 応答と合成 LLM によって生成された応答を使用して、特定のタスク用の「合成実分類器」をトレーニングしました。

次に、この分類器を MTurk からの実際の回答 (クラウドソーサーが LLM に依存していたかどうかは不明) に適用し、LLM の使用頻度を推定します。

最後に、研究者らはキーストロークデータと MTurk 応答の事後比較分析を実行して結果の妥当性を確認しました。

実験結果によると、このモデルは AI テキストを正しく識別する精度が最大 99% であることが示されています。

さらに、研究者らはキーストロークデータで結果を検証し、次のことを発見しました。

- MTurk テキスト ボックスで完全に記述された要約 (合成である可能性は低い) は本物として分類されました。

- 貼り付けられた要約では、抽出要約と LLM の使用が明確に区別されています。

具体的には、AI によって生成されたテキストは、元の要約とほとんど似ていないことがよくあります。これは、AI モデルが元のコンテンツの一部をコピーして貼り付けるのではなく、新しいテキストを生成していることを示唆しています。

人間のデータは重要

現在、LLM が人類の「情報エコシステム」を形作るのではないかという懸念が広まっており、オンラインで入手できる情報の多くが LLM によって生成されることを意味します。

合成データを使用してトレーニングされた LLM のパフォーマンスは大幅に低下し、Ilia Shumailov 氏はそのモデルが「認知症」にかかっていると呼んでいます。

LLM の普及に伴い、クラウドソーシングワーカーが ChatGPT などのさまざまな LLM を広く使用するようになったため、この問題はさらに深刻になります。

しかし、人間のコンテンツクリエイターにとっては、作業効率を向上させながら同時に収益も得られるため、これは朗報です。

しかし、LLM を崩壊の危機から救うには、実際の「人間のデータ」が依然として必要です。

1. 人間のデータは科学において依然として重要である

2. 合成データでモデルを訓練すると偏見やイデオロギーが永続化する可能性がある

3. モデルが普及し、より優れたマルチモーダルになるにつれて、採用は増加するばかりである。

一般的に、人間が生成した生のデータは世界をよりよく表現できますが、低品質で確率の低いデータも含まれる可能性があります。生成モデルは、人気のあるデータのみを過剰適合し、確率の低いデータを誤解する傾向があります。

生成型 AI ツールと関連コンテンツが溢れる未来では、人間が生成したコンテンツは、特に AI の生のトレーニング データのソースとして、今日よりもさらに価値が高くなる可能性があります。

参考文献:

https://arxiv.org/abs/2306.07899v1

https://arxiv.org/abs/2305.17493v2

<<:  LeCun はもう一つの有名な引用を残しました: ChatGPT?犬ほども良くない!それは言語モデルによって供給されるだけである

>>:  「CNNの父」ヤン・ルカン氏:人工知能には脳がなく、そのIQは犬ほど高くない

ブログ    

推薦する

...

25倍のパフォーマンス向上: RustはCとC++に取って代わり、機械学習のPythonバックエンドとして好まれるようになると期待されています。

機械学習開発の分野では、全体像を見て細かい詳細をすべて取り除くと、機械学習開発における不変の 2 つ...

自然言語処理 (NLP) とは何ですか?

[[399636]] 【51CTO.com クイック翻訳】自然言語処理 (NLP) の定義自然言語...

DeepSeek の最適な使い方とは?ウェストレイク大学が自律的に進化できるモバイルインテリジェントエージェント「AppAgentX」をリリース

1. 背景近年、大規模言語モデル (LLM) の急速な発展により、人工知能は新たな高みに到達していま...

AI データラベリングとは何ですか?課題は何ですか?

データ注釈はほとんどの人工知能の基盤であり、機械学習とディープラーニング モデルの品質を決定します。...

AIを活用することで大型機種の消費電力を節約できるのか? ? ?

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

無料ですか?寄生? ChatGPTに夢中です!

51CTOウェブサイトコンテンツ調査に参加するにはクリックしてくださいマット・アセイ編纂者:Qia...

ディープラーニングのこれらの概念をすべて理解できましたか? TF、TLT、TRT、DS

最近、NVIDIA GPU 製品や SDK を使用してディープラーニングを学習している学生に多く出会...

10000000000!マイクロソフトはTransformerを改良し、一度に多くのトークンを記憶できるようにした

Microsoft Research Asia の最新の調査は少々衝撃的だ。彼らは、実際にトークンを...

この記事では、インテリジェントな注釈の原理について説明します。人工知能が注釈の問題を解決する方法を学びます。

従来の機械学習の分野でも、今日注目されているディープラーニングの分野でも、明確なラベルや結果を持つト...

2021 年に人工知能が最も大きく発展する分野はどれでしょうか?

2021年のAIアプリケーションのハイライト[[438943]] 2021年は世界全体にとって非常...

テンセント、初のAI+医療製品「テンセントミイン」の発売を発表

テンセントは本日、初のAI医療支援診断・治療オープンプラットフォーム(以下、AI支援診断オープンプラ...

チンチラの死: 十分に訓練すれば小型モデルでも大型モデルを上回る性能を発揮できる

2022年3月、DeepMindの論文「計算最適化大規模言語モデルのトレーニング」では、構築されたC...

食習慣の変化に伴い、スマートロボットキッチン技術が熱を帯びる

COVID-19パンデミックが続く中、非接触型の食事がますます人気になっています。宅配やテイクアウト...