GPT-5 はますます愚かになるばかりです!スタンフォード・ライス研究所は、AIがAIを5回以上トレーニングすると、モデルが逆効果になり、パフォーマンスが大幅に低下すると警告している。

AI が生成したデータを使用して AI をトレーニングしても魔法のようには機能せず、逆効果になるだけです。

最近、ライス大学とスタンフォード大学のチームは、AI が生成したコンテンツをモデルに取り込むとパフォーマンスが低下するだけであることを発見しました。

研究者たちは、これについて「モデルオートファジー障害（MAD）」と呼ばれる説明を考案した。

写真

論文アドレス: https://arxiv.org/abs/2307.01850

研究では、AI データを使用する場合、モデルはトレーニングの 5 回目の反復後に MAD の影響を受けることが判明しました。

合成データでAIモデルをトレーニングすると、アーティファクトが徐々に増幅される

言い換えれば、モデルに「新鮮なデータ」、つまり人間がラベル付けしたデータが提供されない場合、その出力の品質は深刻な影響を受けることになります。

モデル「内部摩擦」を拒否

現時点では、MAD がすべての AI モデルに影響を与えることは確認されていませんが、研究者はオートエンコーダ、ガウス混合モデル、大規模言語モデルでそれを検証しています。

「世界は、生成AIの爆発的な増加により、インターネット上の合成データがすぐに実際のデータを上回る未来に向かっている」と著者らは書いている。

したがって、現在の AI モデルは、知らないうちに、ますます多くの人工知能合成データを使用してトレーニングされています。

たとえば、最大規模の既知のオープンソースのマルチモーダルデータセットである LAION-5B は、Stable Diffusion を含む最先端のテキスト画像モデルのトレーニングに使用されてきました。

このデータセットには、初期世代のモデルからサンプリングされた合成画像が含まれています。

写真

合成データが人気がある主な理由は 4 つあります。

- トレーニングデータの合成は、実際のサンプルを取得するよりも簡単、高速、安価です。

- 場合によっては、合成データ拡張によりAIシステムのパフォーマンスが向上する可能性がある

- 医療画像や医療記録などの機密性の高いアプリケーションでプライバシーを保護できます

- 最も重要なのは、ディープラーニングモデルのパラメータがどんどん大きくなるにつれて、利用できる実際のデータがほとんどなくなることです。

より多くの実際のデータを取得するために、OpenAIは最近AP通信と契約を締結し、両者はニュースコンテンツと技術の一部を共有することになる。

写真

しかし、意図的であろうとなかろうと、合成データの使用は標準的な AI トレーニングの実践から逸脱することになります。

このプロセスは世代ごとに繰り返され、自己消費するオートファジーループを形成します。

さまざまなオートファジーサイクルのバリエーションは、既存の実際のデータと合成データが将来のトレーニングセットにどのように組み合わされるかによって異なります。

写真

ただし、合成データの生成方法に応じて、他のバリエーションが発生する可能性があります。

たとえば、研究者やアルゴリズムは、合成データを手動で「選択」して、知覚品質（画像やテキストの見栄えが良いなど）と多様性（さまざまな種類の画像やテキスト）のバランスをとることにより、サンプリングバイアスを導入することがよくあります。

研究者らは、「品質」と「多様性」という2つの非公式な概念が、それぞれ精度と再現率という統計指標と密接に関連していることを紹介した。

今日のトレーニングデータセットに合成データがすでに存在していた場合、将来オートファジーサイクルはほぼ避けられないものとなるでしょう。

それで、その影響はどれくらい大きいのでしょうか?

研究者らは、トレーニングセットの構成やサンプリング方法に関係なく、オートファジーサイクルが生成されたモデルの特性とパフォーマンスに及ぼす潜在的な影響は、まだ十分に理解されていないと述べている。

確かなのは、合成データを使用して繰り返しトレーニングを行うと、あらゆる生成モデルに存在するバイアスやアーティファクトが徐々に増幅される可能性があるということです。

要約すると、この研究には 3 つの重要な貢献があります。

1. オートファジーサイクルの現実的なモデル

研究チームは、オートファジーサイクルの 3 つのバリエーションを研究しました。完全合成サイクル (生成モデルが過去数世代の合成サンプルのみでトレーニングされる)、合成拡張サイクル (トレーニングセットに固定セットの実データも含まれる)、および新データサイクル (トレーニングセットに各世代の新しい実データも含まれる) です。

これら 3 つのオートファジーサイクルモデルの要点は、各世代で十分な最新の実データがなければ、将来の生成モデルは MAD になる運命にあるということです。

2. サンプリングバイアスはオートファジーサイクルにおいて重要な役割を果たす

モデル実践者は、合成データを手作業で選択し、高品質のサンプルを優先し、低品質のサンプルを削除する傾向があります。さらに、最先端の生成モデルには、多様性を犠牲にして合成品質を向上させることができる制御可能なパラメータが備わっていることがよくあります。

この品質と多様性（精度と再現率）のトレードオフによって誘発されるサンプリングバイアスが、オートファジートレーニングループの動作に大きな影響を与えることを示しています。

具体的には、サンプリングバイアスがない場合、オートファジーは品質と多様性の両方の急速な低下につながりますが、サンプリングバイアスがある場合、品質は維持されますが、多様性はより急速に低下します。

3. オートファジーサイクルの挙動は、さまざまな生成モデルやデータセットに適用できる

チームは、単純な多変量ガウスモデルとガウス混合モデルの分析と実証的研究に加えて、主な結論がさまざまな生成モデルに適用できることを本文と付録で実証しました。

いくつかの実験結果

サンプリングバイアスのない完全な合成サイクルでは、生成モデルのトレーニングに使用される合成データの品質と多様性は、世代ごとに低下します。

完全な合成ループで生成された合成 FFHQ および MNIST 画像の FID、精度、多様性 (再現率)

研究者らは、実際の MNIST データと、サンプリングバイアスのない (λ = 1) 完全な合成ループからの合成データの t-SNE プロットを提示しています。

生成されたパターンが徐々に融合し、互いの分離が失われていくことがわかります。 10 世代目までに、生成されたサンプルはほとんど認識できなくなりました。

サンプリングバイアスがない場合、合成データモデルは真のモデルから逸脱し、

この研究では、合成品質の向上は合成多様性を損なうことも判明した。

高品質の合成データで生成モデルをトレーニングすると、常に合成品質または多様性が失われます。

サンプリングバイアスにより、合成データモデルは、マージされるのではなく、単一の (高品質の) 画像の周囲でドリフトしたり崩壊したりする傾向があります。

写真

生成されたデータに透かしを入れる

MAD 症状を示すこれらのモデルはすべて広く使用されており、しばらくの間実行されてきました。

オートエンコーダは、人気予測（ソーシャルメディアアプリケーションのアルゴリズムなど）、画像圧縮、画像ノイズ除去、画像生成などのタスクを処理できます。

ガウス混合モデルは、密度推定、クラスタリング、画像セグメンテーションなどの目的で使用され、統計学やデータサイエンスで特に役立ちます。

自己生成コンテンツでトレーニングされる大規模な言語モデル (ChatGPT や Anthropic の Claude など) を使用する、今日の人気の ChatBot も、トレーニング中に MAD 現象が発生しやすくなります。

同時に、これは私たちの生活におけるこれらの AI システムの重要性も強調しています。アルゴリズムによる人工知能モデルは、ビジネス部門と公共部門の両方で広く使用されています。

この研究は、「AI技術のブラックボックス」を覗く方法を提供します。

しかし、これはまた、一部の AI モデルからハムスターホイールを作成するという私たちの希望を打ち砕きます。ハムスターホイールとは、データがモデルに入力され、次にモデル自体が生成したデータがモデルにフィードバックされ、さらにデータが生成され、それがモデルにフィードバックされるプロセスです。

それどころか、このトレーニング方法は、既存のモデルとそれらのモデルのアプリケーションに脅威をもたらすことになります。

すでに商用利用されているモデルが実際にそのモデル自身の出力でトレーニングされていた場合、そのモデルはすでに平均値に向かって回帰している可能性があります (これが明らかになるまでには約 5 回の入出力サイクルが必要であることに注意してください)。

モデル崩壊プロセスの概略図

モデルが平均値に向かって回帰する場合、少数派に属するはずのデータが考慮されていないため、ある程度偏りが生じます。これはアルゴリズムのバイアスとも呼ばれます。

研究結果から浮かび上がったもう一つの重要な点は、データソースに重点が置かれていることです。今さらに重要なのは、「生の」データと「人工の」データを区別できることです。

どのデータが LLM または生成画像アプリケーションによって作成されたかを判別できないと、次世代製品のトレーニングデータに誤って含まれてしまう可能性があります。

残念ながら、この問題を元に戻すには遅すぎる可能性があります。これらのタイプのネットワークはすでに大量のラベルなしデータを生成し、他のシステムに組み込まれています。

ChatGPT や Midjourney の爆発的な増加以前のインターネット全体のスナップショットがあったとしても、AI によって生成されたデータは、実行時に生成される膨大な量のデータはもちろんのこと、長い間、毎日世界中の Web に流入し続けています。

モデル崩壊の原因の模式図

しかし、そうであっても、少なくとも私たちはすでにこれを知っています。

これを知ると、AI が生成したコンテンツを識別できる透かしを見つけること (これは絶対に真実です) がより重要かつ有益なタスクになり、AI が生成したデータにラベルを付ける責任がより重大になったことを意味します。

これらのバイアスを補正する方法は他にもあります。

これを行う 1 つの方法は、モデルの重みを変更することです。分布の末端にある結果の関連性または頻度を増やすと、それらはベル曲線に沿って自然に移動し、平均に近づきます。つまり、それらが削除される可能性が低くなり、自動的に生成されたトレーニングでのデータ損失を回避できます。

モデルは依然として曲線の端でデータを失いますが、このデータはもはや唯一の情報源ではありません。

しかし、重みはどのように決定されるのでしょうか?重みはどのように調整すればよいでしょうか?頻度はどのくらい増やすべきでしょうか?

さらに、モデルを微調整することの影響と、その影響の結果がモデルが最終的に生成するものにどのように影響するかを理解する責任も私たちにはあります。

これらの質問に対する答えは、他の多くの質問を引き起こします。

モデルの応答の背後にある真実に関連する質問（バイアスは幻覚と呼ばれます）

モデルに偏りがあるかどうか、またこの偏りがどこから来ているのか（トレーニングデータ自体から来ているのか、ネットワークを作成するために使用された重みから来ているのか。これは MAD プロセスからもわかるようになりました）

モデルが独自のデータでトレーニングされるとどうなるでしょうか...しかし、ご覧のとおり、結果は芳しくありません。

同様に、この問題も無視できません。

新しい知識に触れない人々が、ますます自己満足と偏執狂に陥っていくのと同じです。これは、モデルが自己生成コンテンツでトレーニングされると機能しなくなるのと同じ理由です。

写真

<<:

>>: ChatGPTはカスタムコマンドを起動します。一度言って覚えておけば、話すたびにそれに従います。

GPT-5 はますます愚かになるばかりです!スタンフォード・ライス研究所は、AIがAIを5回以上トレーニングすると、モデルが逆効果になり、パフォーマンスが大幅に低下すると警告している。

モデル「内部摩擦」を拒否

生成されたデータに透かしを入れる

Java ガベージコレクションアルゴリズムの紹介

鉄道欠陥検出における機械学習の実用化

みんなが話題にしている人工知能とは一体何なのでしょうか?

AI 計画ガイド: デジタル変革に不可欠なステップ

10万ドル＋26日、低コスト1000億パラメータLLMが誕生

2021年のAI展望

畳み込みニューラルネットワークの「修理工」のための「マニュアル」

スマートカーのステアバイワイヤ技術の詳細な説明

推薦する

人工知能時代の到来により、代替が難しい仕事はどれでしょうか?

1つのコマンドでChatGPTがさらに強力になります

1.9k の星を獲得した LLM 微調整ツール Lamini は高速かつ強力で、無料で利用可能

携帯電話の顔認識は、単に顔を見せることだけだと思っていませんか?あまりにもナイーブだ！女の子は注意しなければならない

冬季オリンピックの AI: 氷と雪の世界における 5 つの「テクノロジーの花」

顔認識の応用シナリオは拡大し続けています。顔スキャンは便利で安全である必要があります。

スタンフォード大学のエビ揚げロボットがネットで話題に！中国チームの費用は22万元で、フルコースの食事の調理や食器洗いもできる。

「突破」に注目！ 2021年6月のドローン業界の重要な動向の概要

人工知能の分野に早く参入したいJavaプログラマーですか?準備はできたか？

ディープラーニング？「ブラックボックス」である必要はない

クイックソートアルゴリズムの普及チュートリアル