GPT-5 は GPT-4 の背後からの攻撃で死亡しますか?オックスフォードとケンブリッジの研究が警告: AI を「有害」になるようにトレーニングすると、モデルが崩壊する!

GPT-4、Stable Diffusion、Midjourney の人気により、ますます多くの人々が、生成 AI テクノロジーを仕事や生活に導入し始めています。

AI が生成したデータを使用して AI をトレーニングしようとする人も現れています。これが伝説の「データ永久機関」なのでしょうか？

しかし、オックスフォード大学、ケンブリッジ大学、インペリアル・カレッジなどの研究者らは、トレーニング中にAIコンテンツを多用すると、モデルが崩壊し、回復不可能な欠陥が生じることを発見した。

つまり、時間が経つにつれて、モデルは実際の基礎データを忘れてしまいます。ほぼ理想的な長期学習条件下であっても、この状況は避けられません。

そのため研究者らは、大規模データによってもたらされるモデルの優位性を今後も維持したいのであれば、人間が書いたテキストを真剣に受け止めるべきだと主張した。

論文アドレス: https://arxiv.org/abs/2305.17493v2

しかし、ここで問題となるのは、「人間のデータ」だと思っているものが必ずしも「人間」によって書かれたものではないかもしれないということです。

スイス連邦工科大学ローザンヌ校（EPFL）の新しい研究によると、人間のデータの33%～46%はAIによって生成されていると推定されています。

トレーニングデータはゴミだ

今日の大規模言語モデルが非常に強力な機能を備えていることは間違いありません。たとえば、GPT-4 は、シナリオによっては人間と区別がつかないテキストを生成できます。

しかし、その重要な理由は、トレーニングデータのほとんどが過去数十年間のインターネット上での人間のコミュニケーションから得られたものであることです。

将来の言語モデルが依然としてインターネットからのデータのクロールに依存する場合、トレーニングセットに自己生成テキストを導入する必要が必然的に生じます。

この点に関して、研究者は、GPT が n 世代目まで発展すると、モデルに深刻な崩壊問題が発生すると予測しています。

したがって、LLM によって生成されたコンテンツをキャプチャすることが避けられないこのような状況では、モデルのトレーニングのために人間が作成した実際のデータを準備することが特に重要になります。

有名な Amazon データクラウドソーシングプラットフォーム Mechanical Turk (MTurk) は、2005 年の開始以来、多くの人々の副業の選択肢となっています。

研究者は、画像の注釈付け、調査など、さまざまな些細な人間の知能タスクを公開できます。

これらのタスクは通常、コンピューターやアルゴリズムでは対応できません。実際、予算が限られている一部の科学研究者や企業にとって、MTurk は「最良の選択」となっています。

ベゾス氏でさえ、冗談めかしてMTurkのクラウドワーカーを「人工人工知能」と呼んでいる。

MTurk に加えて、Prolific などのクラウドソーシングプラットフォームは研究者や業界の専門家にとって中心的な存在となり、調査や実験のためにさまざまなデータを作成、注釈付け、要約する方法を提供しています。

しかし、EPFL の調査によると、この重要な人間データソースのほぼ半分は AI を使用する注釈者によって作成されたことがわかりました。

論文アドレス: https://arxiv.org/abs/2306.07899v1

モデルの崩壊

冒頭で述べた「モデル崩壊」とは、AI からモデルに過剰なデータを入力した後に、複数の世代に影響を及ぼす可能性がある劣化のことです。

つまり、新世代モデルのトレーニングデータは、前世代モデルによって生成されたデータによって汚染され、現実世界の認識が誤って理解されることになります。

さらに、この内訳は、特に生成 AI が時間の経過とともに学習して、応答で特定の人種のみを生成し、他の人種が存在することを「忘れる」場合、性別、人種、またはその他の敏感な属性に基づく差別などの問題を引き起こす可能性があります。

さらに、大規模言語モデルに加えて、変分オートエンコーダ (VAE) やガウス混合モデルでもモデル崩壊が発生します。

モデルの崩壊のプロセスは壊滅的な忘却とは異なることに注意することが重要です。モデルは以前に学習したデータを忘れるのではなく、モデルの誤った考えを現実として誤って解釈し始め、誤った考えに対する自身の信念を強化します。

たとえば、モデルが 100 枚の猫の画像のデータセットでトレーニングされており、そのうち 10 枚が青い猫で 90 枚が黄色い猫であるとします。

モデルは、黄色い猫の方が一般的であることを学習しており、青い猫は実際よりも黄色く見える傾向があるため、新しいデータを生成するように要求されると、緑の猫に似た結果が返される可能性があります。

時間が経つにつれて、青い髪の本来の特徴は複数のトレーニングエポックで徐々に侵食され、青から緑に直接変化し、最終的に黄色に進化します。この徐々に歪んでいくつかの特徴が失われることがモデルの崩壊です。

具体的には、モデルの崩壊は次の 2 つのケースに分けられます。

1. 初期のモデル崩壊。モデルが分布の末端に関する情報を失い始める。

2. 後期モデル崩壊。モデルが元の分布のさまざまなモードと絡み合い、元の分布とほとんど似ていない分布に収束します。多くの場合、分散は非常に小さくなります。

同時に、研究者らは、モデルが崩壊した主な理由を2つまとめました。

多くの場合、1 つの不正確な組み合わせが全体的なエラーの増加につながるという連鎖的な影響が生じます。

1. 統計的近似誤差

再サンプリングの各ステップで、情報内のゼロ以外の確率が失われ、統計的近似誤差が生じる可能性がありますが、サンプル数が無限大に近づくと、この誤差は徐々に消えていきます。この誤差がモデル崩壊の主な原因です。

2. 関数近似誤差

このエラーは主に、モデル内の関数近似値の表現力が十分でないか、元の分布のサポート外で表現力が強すぎる場合に発生します。

ニューラルネットワークは極限では普遍的な関数近似器であることはよく知られていますが、実際にはこの仮定は常に成り立つわけではなく、特にニューラルネットワークは元の分布のサポートの外側にゼロ以外の尤度を導入する可能性があります。

簡単な例として、2 つのガウス分布の混合物を単一のガウス分布に適合させようとすると、モデルがデータ分布に関する完全な情報を持っていたとしても、モデルエラーは避けられません。

統計エラーがない場合、関数近似エラーは最初の世代でのみ発生することに注意してください。関数近似器によって新しい分布を記述できるようになると、モデルの各世代でまったく同じ分布が維持されます。

モデルの強力な近似能力は諸刃の剣であると言えます。その表現力は統計的ノイズを相殺し、真の分布により適合する可能性がありますが、ノイズを複雑にする可能性もあります。

この点について、論文の共同筆頭著者であるイリア・シュマイロフ氏は次のように述べている。「生成されたデータ内のエラーは蓄積され、最終的には生成されたデータから学習したモデルが現実をさらに誤解するようになります。そして、モデルの崩壊は非常に急速に起こり、モデルは元々学習した元のデータのほとんどをすぐに忘れてしまいます。」

回避策

幸いなことに、研究者たちはモデルの崩壊を避ける方法があることを発見しました。

1 つ目は、完全にまたは名目上人間が生成した元のデータセットの高品質のコピーを保持し、AI 生成データとの混合を避け、このデータを使用してモデルを定期的に再トレーニングするか、モデルを完全にゼロからトレーニングすることです。

応答品質の低下を回避し、AI モデルにおけるエラーや重複を減らす 2 番目の方法は、人間が生成した新しいクリーンなデータセットをトレーニングに再導入することです。

モデルの崩壊を防ぐために、開発者は、元のデータ内の少数派が後続のデータセットで公平に表現されるようにする必要があります。

データは慎重にバックアップし、考えられるすべてのエッジケースをカバーする必要があります。モデルのパフォーマンスを評価するときは、最も信頼できないデータであっても、モデルが処理するデータを考慮する必要があります。

後でモデルを再トレーニングするときには、古いデータと新しいデータの両方を含めるようにする必要があります。これにより、トレーニングのコストは増加しますが、少なくともモデルの崩壊をある程度軽減するのに役立ちます。

しかし、これらの方法では、コンテンツ制作者や AI 企業が、AI 生成コンテンツと人間生成コンテンツを区別するために、何らかの大規模なラベリングメカニズムを採用する必要があります。

現在、GPTZero、OpenAI Detector、Writer など、単純なテキストに適したすぐに使用できるソリューションがいくつかあります。

ただし、一部の特殊なテキストでは、これらの方法を効果的に実行できません。たとえば、EPFL の研究では、ChatGPT によって合成された要約が 10 件ありましたが、GPTZero はそのうち 6 件だけを合成として検出しました。

これに応じて、研究者は独自のモデルを微調整して AI の使用をテストし、この記事の執筆時点では ChatGPT が最も一般的に使用されている LLM であることを発見しました。

AI データを検出するために構築された手法では、研究者らは、元の研究からの回答と ChatGPT を使用して合成されたデータを使用して、カスタムの「合成から実際の分類器」をトレーニングしました。

この分類器は、再タスクにおける合成回答の普及率を推定するために使用されます。

具体的には、研究者らはまず、人間が書いた実際の MTurk 応答と合成 LLM によって生成された応答を使用して、特定のタスク用の「合成実分類器」をトレーニングしました。

次に、この分類器を MTurk からの実際の回答 (クラウドソーサーが LLM に依存していたかどうかは不明) に適用し、LLM の使用頻度を推定します。

最後に、研究者らはキーストロークデータと MTurk 応答の事後比較分析を実行して結果の妥当性を確認しました。

実験結果によると、このモデルは AI テキストを正しく識別する精度が最大 99% であることが示されています。

さらに、研究者らはキーストロークデータで結果を検証し、次のことを発見しました。

- MTurk テキストボックスで完全に記述された要約 (合成である可能性は低い) は本物として分類されました。

- 貼り付けられた要約では、抽出要約と LLM の使用が明確に区別されています。

具体的には、AI によって生成されたテキストは、元の要約とほとんど似ていないことがよくあります。これは、AI モデルが元のコンテンツの一部をコピーして貼り付けるのではなく、新しいテキストを生成していることを示唆しています。

人間のデータは重要

現在、LLM が人類の「情報エコシステム」を形作るのではないかという懸念が広まっており、オンラインで入手できる情報の多くが LLM によって生成されることを意味します。

合成データを使用してトレーニングされた LLM のパフォーマンスは大幅に低下し、Ilia Shumailov 氏はそのモデルが「認知症」にかかっていると呼んでいます。

LLM の普及に伴い、クラウドソーシングワーカーが ChatGPT などのさまざまな LLM を広く使用するようになったため、この問題はさらに深刻になります。

しかし、人間のコンテンツクリエイターにとっては、作業効率を向上させながら同時に収益も得られるため、これは朗報です。

しかし、LLM を崩壊の危機から救うには、実際の「人間のデータ」が依然として必要です。

1. 人間のデータは科学において依然として重要である

2. 合成データでモデルを訓練すると偏見やイデオロギーが永続化する可能性がある

3. モデルが普及し、より優れたマルチモーダルになるにつれて、採用は増加するばかりである。

一般的に、人間が生成した生のデータは世界をよりよく表現できますが、低品質で確率の低いデータも含まれる可能性があります。生成モデルは、人気のあるデータのみを過剰適合し、確率の低いデータを誤解する傾向があります。

生成型 AI ツールと関連コンテンツが溢れる未来では、人間が生成したコンテンツは、特に AI の生のトレーニングデータのソースとして、今日よりもさらに価値が高くなる可能性があります。

参考文献:

https://arxiv.org/abs/2306.07899v1

https://arxiv.org/abs/2305.17493v2

<<: LeCun はもう一つの有名な引用を残しました: ChatGPT?犬ほども良くない！それは言語モデルによって供給されるだけである

>>: 「CNNの父」ヤン・ルカン氏：人工知能には脳がなく、そのIQは犬ほど高くない

GPT-5 は GPT-4 の背後からの攻撃で死亡しますか?オックスフォードとケンブリッジの研究が警告: AI を「有害」になるようにトレーニングすると、モデルが崩壊する!

トレーニングデータはゴミだ

モデルの崩壊

回避策

人間のデータは重要

今後3～5年で、機械学習の人材が不足する領域はどこでしょうか？

HTTPS の暗号化アルゴリズムに関連する概念

中国の良き叔父から12歳の開発者Jing Kunまで：DuerOSはすべての開発者に平等に力を与えます

アルゴリズムを拒否することができます

モデルが大きくなればなるほど、パフォーマンスは向上しますか? Appleの自己回帰視覚モデルAIM: そうです

マイクロソフトは、兆パラメータのAIモデルのトレーニングに必要なGPUを4,000から800に削減しました。

人工知能に関する詳細な調査：AIツールを使ったことがある人は思っているほど考えていない

データプラットフォームのコンピューティング能力: ディープラーニングとデータベースに適した GPU はどれですか?

推薦する

160本の論文を体系的に調査した、分野初の総合レビューが出版され、IJCAI 2021に受理されました。

ビジネス上の問題を機械学習の問題に変換するにはどうすればよいでしょうか?

インテリジェントなデザインの4台の馬車が牽引する蘇寧木牛のクリエイティブな共有

GoogleはAIを使って「ヘッドフォンケーブル」をトレーニングし、タッチスクリーンのほとんどの機能を実現

北京交通大学がソースの交通モデル TransGPT·Zhiyuan をオープン、商用利用は無料

がん治療のブレークスルー：AIGCの医薬品開発における役割

Java プログラミングスキル - データ構造とアルゴリズム「バランスバイナリツリー」

AIアーティストの彫刻作品が、カメラアイがスパイ活動に関与しているとの疑いで税関に押収された？

米陸軍は航空機、戦車、VR訓練にデジタルツインプロジェクトを導入している

オライリー、2023年ジェネレーティブAIエンタープライズレポートを発表

モデルのボトルネックを「ルート」から見つけよう！第一原理からディープラーニングを分析する

コンピュータビジョンが日常生活をどう改善するか