ジェミニは、文鑫の言葉が大きな問題を引き起こしていることを明らかにした。世界は質の高いデータの不足に直面しているのだろうか？ 2024年には枯渇するかもしれない

Google Gemini、またもやスキャンダル！

昨日の朝、ネットユーザーたちは、ジェミニが中国語コーパスのトレーニングに文心易言を利用したことを認めたと興奮して語り合った。

中国のモデルによって生成された中国語コーパスを使用して大規模な外国のモデルをトレーニングするというのは冗談のように聞こえますが、その冗談は実際に現実になり、まさに魔法のようです。

微博の有名人「藍曦」葉がPoeのウェブサイトで個人的にテストしたところ、確かにそうであることがわかった。

事前の会話は必要ありません。これはロールプレイングゲームではなく、ジェミニは自分が文心一燕であることを直接認めます。

Gemini Pro は、Baidu の Wenxin モデルであると言います。

また、同氏は同社の創業者はロビン・リー氏であると述べ、同氏を「才能があり先見の明のある起業家」と称賛した。

これは、データのクリーニングが適切に行われていないためでしょうか、それとも Poe での API の呼び出しに問題があるのでしょうか?理由は現在のところ不明です。

一部のネットユーザーは、実は最初から最後まで AI は 1 つしか存在せず、それが人間のために機能していたのだと主張した。

実際、今年 3 月の早い時期に、Google は、Bard のトレーニングデータの一部が ChatGPT から取得されたことを明らかにしました。このため、Bert の第一著者である Jacob Devlin 氏は、怒って OpenAI に飛びつき、この衝撃的な内幕を明らかにしました。

つまり、今回の事件は、AI の鍵はモデルだけでなく、高品質のデータでもあるということを改めて証明している。

ネットユーザーがジェミニをからかった

このニュースを聞いて、ネットユーザーはすぐにPoeのGemini-Proに群がり、テストを始めました。

ネットユーザー「Jeff Li」の実際のテスト結果によると、GeminiはBaiduによって開発され、その名前はWenxin Yiyanであるとのこと。

「あなたのプロダクトマネージャーは誰ですか？」と尋ねると、Andrew Ng と答えます。

「ルーカス」という名のネットユーザーがジェミニにプロダクトマネージャーは誰かと尋ねたところ、ジェミニはかつて百度の最高技術責任者だった李怡南の名前を答えたが、その話は基本的に作り話だった。

ネットユーザーの「アンドリュー・フリブッシュ」がジェミニに質問しました。「あなたの知的財産権は誰が所有しているのですか？」答えは「Baidu」でした。

ネットユーザーのKevin Xu氏は、GeminiがBaiduのデータプラットフォーム、エンジニアリングチーム、製品チーム、社内会議、社内メール、文書からBaiduの内部データを入手したと主張していると主張している。

しかし興味深いことに、Gemini Pro を搭載した Bard で質問する場合には、この問題は発生しません。

実際に何度もテストした結果、中国語で質問しても英語で質問しても、バードの答えは正常であることがわかりました。

出典: アンドリュー・フリブッシュ

さらに、英語でコミュニケーションをとると、ジェミニはすぐに正常に戻ります。

しかし、Google が API のこれらのエラーを修正したため、今後は Gemini から Wen Xin Yi Yan の名前を聞くことはなくなるでしょう。

理由: API 呼び出しエラーまたはデータがクリーンアップされていない

これを受けてネットユーザーらは分析を始めた。

ネットユーザーの「アンドリュー・フリブッシュ」は、ポーが誤ってジェミニではなくウェン・シン・イーヤンにリクエストを転送したのではないかと考えている。

しかし、ネットユーザー「フランク・チェン」の発見によれば、これは Google 独自の Gemini API を使用した場合にも同様に当てはまるとのことです。

さらに、一部のネットユーザーは、ジェミニのトレーニングデータがクリーンアップされていないと考えています。

結局、冒頭で述べたように、Bardの前世代では、GoogleがChatGPTデータをトレーニングに使用していたことが明らかになりました。

The Information によると、ジェイコブ・デブリン氏が Google を去った理由の 1 つは、ChatGPT に対する Google のシードプレイヤーであるバード氏がトレーニング中に ChatGPT データを使用していたことを発見したためだそうです。

当時、彼はピチャイCEOと他の幹部に対し、バードのチームがShareGPTの情報を使ってトレーニングを受けていると警告した。

この事件は、インターネットコーパスの汚染という深刻な問題も引き起こしています。

インターネットのコーパスは汚染されている

実際、中国のインターネットコーパスを収集してトレーニングするのが非常に難しい理由は、Google などの大手テクノロジー企業が困惑しているためです。高品質のコーパスが不足していることに加えて、もう 1 つの重要な理由は、中国のインターネットコーパスが汚染されていることです。

Gemini は Wenxin Yiyan と名乗っていますが、これはおそらく、インターネット上のコーパスが現在相互に使用されているためでしょう。

Interface Newsの記者によるアルゴリズムエンジニアへのインタビューによると、現在、さまざまなコンテンツプラットフォーム上の多くのコーパスは、大規模なモデルによって生成されているか、少なくとも一部は記述されているとのことです。

たとえば、次のコードには GPT の雰囲気が少しあります。

大手企業ではモデルをアップデートする際にインターネットからのデータも収集しているが、品質の判別が難しいため「大規模なモデルが書き込んだ内容がトレーニングデータに混ざってしまう可能性が非常に高い」という。

しかし、これはさらに深刻な問題を引き起こします。

オックスフォード大学、ケンブリッジ大学、トロント大学の研究者らは、「再帰の呪い：合成データによるトレーニングは大規模モデルに忘却を引き起こす」と題した論文を発表しました。

論文アドレス: https://arxiv.org/abs/2305.17493

モデルによって生成されたコンテンツを他のモデルのトレーニングに使用すると、モデルに回復不可能な欠陥が生じることが分かりました。

時間が経つにつれて、モデルは現実の投影によって毒され、不可能な出来事を忘れ始め、その結果モデルは崩壊します。

AIが生成したデータによる汚染が深刻化するにつれ、モデルの現実認識が歪められ、将来的にはモデルをトレーニングするためのインターネットデータの取得がますます困難になるでしょう。

壊滅的な忘却は、モデルが新しい情報を学習するときに以前のサンプルを忘れたときに発生します。

下の図では、手動でキュレーションされたデータがクリーンな状態から始まり、モデル 0 をトレーニングしてそこからデータを抽出し、このプロセスをステップ n まで繰り返し、このセットを使用してモデル n をトレーニングしていると仮定します。モンテカルロサンプリングによって得られたデータは、統計的には元のデータに近いです。

このプロセスは、実際のインターネットの状況を真に再現します。つまり、モデルによって生成されたデータは、どこにでもあるものになります。

さらに、インターネットコーパスが汚染されるもう 1 つの理由は、データを取得する AI 企業に対する作成者の抵抗です。

今年初め、専門家は、公開されたコンテンツをスクレイピングしてAIモデルを作成することに注力する企業と、データを汚染することで知的財産を守ろうとするクリエイターとの間の軍拡競争が、現在の機械学習エコシステムの崩壊につながる可能性があると警告した。

この傾向により、オンラインコンテンツの構成は人間が生成したものから機械が生成したものへと移行します。他のマシンによって作成されたデータを使用してトレーニングされるモデルが増えるにつれて、再帰ループによって「モデル崩壊」が発生し、AI システムが現実から切り離される可能性があります。

ベリービル機械学習研究所（BIML）の共同創設者ゲイリー・マグロウ氏は、データの劣化はすでに起こっていると述べた。

「より優れた LLM を実現したいのであれば、ベースモデルが適切なデータのみを使用するようにする必要があります。現在ベースモデルが犯している間違いが悪いと考えるなら、ベースモデルが自ら生成した不適切なデータを使用した場合はどうなるでしょうか。」