ジェミニは、文鑫の言葉が大きな問題を引き起こしていることを明らかにした。世界は質の高いデータの不足に直面しているのだろうか? 2024年には枯渇するかもしれない

ジェミニは、文鑫の言葉が大きな問題を引き起こしていることを明らかにした。世界は質の高いデータの不足に直面しているのだろうか? 2024年には枯渇するかもしれない

Google Gemini、またもやスキャンダル!

昨日の朝、ネットユーザーたちは、ジェミニが中国語コーパスのトレーニングに文心易言を利用したことを認めたと興奮して語り合った。

中国のモデルによって生成された中国語コーパスを使用して大規模な外国のモデルをトレーニングするというのは冗談のように聞こえますが、その冗談は実際に現実になり、まさに魔法のようです。

微博の有名人「藍曦」葉がPoeのウェブサイトで個人的にテストしたところ、確かにそうであることがわかった。

事前の会話は必要ありません。これはロールプレイングゲームではなく、ジェミニは自分が文心一燕であることを直接認めます。

Gemini Pro は、Baidu の Wenxin モデルであると言います。

また、同氏は同社の創業者はロビン・リー氏であると述べ、同氏を「才能があり先見の明のある起業家」と称賛した。

これは、データのクリーニングが適切に行われていないためでしょうか、それとも Poe での API の呼び出しに問題があるのでしょうか?理由は現在のところ不明です。

一部のネットユーザーは、実は最初から最後まで AI は 1 つしか存在せず、それが人間のために機能していたのだと主張した。

実際、今年 3 月の早い時期に、Google は、Bard のトレーニング データの一部が ChatGPT から取得されたことを明らかにしました。このため、Bert の第一著者である Jacob Devlin 氏は、怒って OpenAI に飛びつき、この衝撃的な内幕を明らかにしました。

つまり、今回の事件は、AI の鍵はモデルだけでなく、高品質のデータでもあるということを改めて証明している。

ネットユーザーがジェミニをからかった

このニュースを聞いて、ネットユーザーはすぐにPoeのGemini-Proに群がり、テストを始めました。

ネットユーザー「Jeff Li」の実際のテスト結果によると、GeminiはBaiduによって開発され、その名前はWenxin Yiyanであるとのこと。

「あなたのプロダクトマネージャーは誰ですか?」と尋ねると、Andrew Ng と答えます。

「ルーカス」という名のネットユーザーがジェミニにプロダクトマネージャーは誰かと尋ねたところ、ジェミニはかつて百度の最高技術責任者だった李怡南の名前を答えたが、その話は基本的に作り話だった。

ネットユーザーの「アンドリュー・フリブッシュ」がジェミニに質問しました。「あなたの知的財産権は誰が所有しているのですか?」答えは「Baidu」でした。

ネットユーザーのKevin Xu氏は、GeminiがBaiduのデータプラットフォーム、エンジニアリングチーム、製品チーム、社内会議、社内メール、文書からBaiduの内部データを入手したと主張していると主張している。

しかし興味深いことに、Gemini Pro を搭載した Bard で質問する場合には、この問題は発生しません。

実際に何度もテストした結果、中国語で質問しても英語で質問しても、バードの答えは正常であることがわかりました。

出典: アンドリュー・フリブッシュ

さらに、英語でコミュニケーションをとると、ジェミニはすぐに正常に戻ります。

しかし、Google が API のこれらのエラーを修正したため、今後は Gemini から Wen Xin Yi Yan の名前を聞くことはなくなるでしょう。

理由: API 呼び出しエラーまたはデータがクリーンアップされていない

これを受けてネットユーザーらは分析を始めた。

ネットユーザーの「アンドリュー・フリブッシュ」は、ポーが誤ってジェミニではなくウェン・シン・イーヤンにリクエストを転送したのではないかと考えている。

しかし、ネットユーザー「フランク・チェン」の発見によれば、これは Google 独自の Gemini API を使用した場合にも同様に当てはまるとのことです。

さらに、一部のネットユーザーは、ジェミニのトレーニングデータがクリーンアップされていないと考えています。

結局、冒頭で述べたように、Bardの前世代では、GoogleがChatGPTデータをトレーニングに使用していたことが明らかになりました。

The Information によると、ジェイコブ・デブリン氏が Google を去った理由の 1 つは、ChatGPT に対する Google のシード プレイヤーであるバード氏がトレーニング中に ChatGPT データを使用していたことを発見したためだそうです。

当時、彼はピチャイCEOと他の幹部に対し、バードのチームがShareGPTの情報を使ってトレーニングを受けていると警告した。

この事件は、インターネット コーパスの汚染という深刻な問題も引き起こしています。

インターネットのコーパスは汚染されている

実際、中国のインターネット コーパスを収集してトレーニングするのが非常に難しい理由は、Google などの大手テクノロジー企業が困惑しているためです。高品質のコーパスが不足していることに加えて、もう 1 つの重要な理由は、中国のインターネット コーパスが汚染されていることです。

Gemini は Wenxin Yiyan と名乗っていますが、これはおそらく、インターネット上のコーパスが現在相互に使用されているためでしょう。

Interface Newsの記者によるアルゴリズムエンジニアへのインタビューによると、現在、さまざまなコンテンツプラットフォーム上の多くのコーパスは、大規模なモデルによって生成されているか、少なくとも一部は記述されているとのことです。

たとえば、次のコードには GPT の雰囲気が少しあります。

大手企業ではモデルをアップデートする際にインターネットからのデータも収集しているが、品質の判別が難しいため「大規模なモデルが書き込んだ内容がトレーニングデータに混ざってしまう可能性が非常に高い」という。

しかし、これはさらに深刻な問題を引き起こします。

オックスフォード大学、ケンブリッジ大学、トロント大学の研究者らは、「再帰の呪い:合成データによるトレーニングは大規模モデルに忘却を引き起こす」と題した論文を発表しました。

論文アドレス: https://arxiv.org/abs/2305.17493

モデルによって生成されたコンテンツを他のモデルのトレーニングに使用すると、モデルに回復不可能な欠陥が生じることが分かりました。

時間が経つにつれて、モデルは現実の投影によって毒され、不可能な出来事を忘れ始め、その結果モデルは崩壊します。

AIが生成したデータによる汚染が深刻化するにつれ、モデルの現実認識が歪められ、将来的にはモデルをトレーニングするためのインターネットデータの取得がますます困難になるでしょう。

壊滅的な忘却は、モデルが新しい情報を学習するときに以前のサンプルを忘れたときに発生します。

下の図では、手動でキュレーションされたデータがクリーンな状態から始まり、モデル 0 をトレーニングしてそこからデータを抽出し、このプロセスをステップ n まで繰り返し、このセットを使用してモデル n をトレーニングしていると仮定します。モンテカルロサンプリングによって得られたデータは、統計的には元のデータに近いです。

このプロセスは、実際のインターネットの状況を真に再現します。つまり、モデルによって生成されたデータは、どこにでもあるものになります。

さらに、インターネット コーパスが汚染されるもう 1 つの理由は、データを取得する AI 企業に対する作成者の抵抗です。

今年初め、専門家は、公開されたコンテンツをスクレイピングしてAIモデルを作成することに注力する企業と、データを汚染することで知的財産を守ろうとするクリエイターとの間の軍拡競争が、現在の機械学習エコシステムの崩壊につながる可能性があると警告した。

この傾向により、オンライン コンテンツの構成は人間が生成したものから機械が生成したものへと移行します。他のマシンによって作成されたデータを使用してトレーニングされるモデルが増えるにつれて、再帰ループによって「モデル崩壊」が発生し、AI システムが現実から切り離される可能性があります。

ベリービル機械学習研究所(BIML)の共同創設者ゲイリー・マグロウ氏は、データの劣化はすでに起こっていると述べた。

「より優れた LLM を実現したいのであれば、ベース モデルが適切なデータのみを使用するようにする必要があります。現在ベース モデルが犯している間違いが悪いと考えるなら、ベース モデルが自ら生成した不適切なデータを使用した場合はどうなるでしょうか。」

GPT-4 は宇宙のすべてのデータを使い果たすのでしょうか?世界は質の高いデータの不足に直面している

現在、世界の大手モデルはデータ不足に直面しています。

高品質のコーパスは、大規模言語モデルの開発を制限する重要な制約の 1 つです。

大規模言語モデルはデータに対して非常に貪欲です。 GPT-4 と Gemini Ultra のトレーニングには、約 4 兆〜 8 兆語が必要です。

研究機関EpochAIは、早ければ来年にも世界中の高品質なトレーニングデータが枯渇し、人類がトレーニングデータ不足に直面する可能性があると考えている。

昨年11月、MITを含む研究者らによる調査では、機械学習データセットによって2026年までに「高品質な言語データ」がすべて使い果たされる可能性があると推定された。

論文アドレス: https://arxiv.org/abs/2211.04325

OpenAIもデータが不足していることを公に発表した。データが不足していたため、何度も訴訟を起こされた。

7月、カリフォルニア大学バークレー校の著名なコンピューター科学者スチュアート・ラッセル氏は、ChatGPTやその他のAIツールのトレーニングによって、まもなく「宇宙のすべてのテキスト」が使い果たされる可能性があると述べた。

現在、できるだけ多くの高品質のトレーニング データを取得するには、モデル開発者は豊富な独自のデータ リソースを活用する必要があります。

アクセル・シュプリンガーとOpenAIの最近のコラボレーションは典型的な例です。

OpenAIは、モデルのトレーニングやユーザーのクエリへの応答に使用できるSpringerの履歴データとリアルタイムデータに対して料金を支払いました。

専門家が編集したこれらのテキストには豊富な世界知識が含まれており、他のモデル開発者はこのデータにアクセスできないため、OpenAI の優位性が確保されます。

基礎モデルを構築するための競争においては、高品質の独自データへのアクセスが非常に重要であることは間違いありません。

これまでのところ、オープンソース モデルは、トレーニングに公開データセットを利用することで対応できています。

ただし、最高品質のデータを取得できない場合、オープンソース モデルは徐々に遅れをとるか、最先端のモデルとの差が徐々に広がる可能性があります。

昔、ブルームバーグは自社の財務文書をトレーニング コーパスとして使用して BloombergGPT を作成しました。

当時、BloombergGPT は特定の金融分野のタスクにおいて他の同様のモデルを上回っていました。これは、独自のデータが実際に違いを生み出す可能性があることを示しています。

OpenAIは、データへの過去および継続的なアクセスに対して年間最大8桁を支払う用意があると表明している。

オープンソース モデルの開発者がそのようなコストを支払うとは想像しがたい。

もちろん、モデルのパフォーマンスを向上させる方法は、独自のデータに限定されず、合成データ、データ効率、アルゴリズムの改善なども含まれますが、独自のデータはオープンソースモデルが克服するのが難しい障壁となっているようです。

<<:  OpenAIは新しいセキュリティチームを正式に発表しました。モデルは4つの危険レベルに分かれており、取締役会はリリースするかどうかを決定する権利を持っています。

>>:  コーディングが ChatGPT を圧倒します! UIUCと清華大学が共同で7BパラメータのMagicorderをリリース、コードデータの重みは完全にオープンソース

ブログ    
ブログ    
ブログ    

推薦する

Microsoft TensorFlow-DirectML 正式版リリース: WSL での GPU による機械学習の高速化

IT Homeは9月12日、Microsoftが最近、Windows Subsystem for L...

工業情報化省科学技術局長:チップOSはAIを突破しなければ単なる空想に過ぎない

国内メディアの報道によると、12月17日に開催された2019年中国スマート企業発展フォーラムで、工業...

人工知能の分野に参入する際に Python が好まれる言語なのはなぜですか?

実際、すべてのプログラミング言語の中で、Python は新しいお気に入りではありません。最初のバージ...

2019年世界人工知能製品応用博覧会は今年5月に蘇州で開催される。

2019年グローバルスマート博覧会は今年5月9日から11日まで蘇州工業園区で開催される予定だ。蘇州...

医療ロボットが登場し、医療分野は大きな変化を迎える

近年、人工知能の発展、技術の飛躍的進歩、その応用分野の漸進的な拡大に伴い、人々の生活と福祉の重要な一...

手紙を開かずに読むことはできますか? MITのX線技術がネイチャー誌に掲載される

2世紀前に折りたたまれた手紙の内容を、開かずに読むにはどうすればよいでしょうか?アルゴリズムはそれを...

AIがデータ統合の状況をどう変えるのか

生成 AI は統合の状況を変えています。 チームの経済性、速度、プロジェクト構造、配信モデルについて...

クラウドネットワークとAIに焦点を当てると、3大通信事業者の財務報告はどのようなことを明らかにするのでしょうか。

少し前に、中国移動、中国聯通、中国電信の3大通信事業者が2023年第2四半期の財務報告書を発表しまし...

...

COVID-19パンデミックにより非接触型生体認証の利用が拡大

[[403477]]調査会社ファクトMRの最新情報によると、新型コロナウイルス感染症のパンデミックに...

CLRNet: 自動運転における車線検出のための階層的改良ネットワーク アルゴリズム

車線は高レベルのセマンティクスを備えた交通標識であり、視覚ナビゲーション システムでは特に重要です。...

マッキンゼー:人工知能の最大の課題と機会

最近、多くの専門家とコミュニケーションをとる中で、人工知能の3つの重要なビジネス面が徐々に明らかにな...

初のAI絵画がオークションで予想を大きく上回る43万2000ドルで落札

英国放送協会が10月25日に報じたところによると、人工知能によって制作された芸術作品がオークションで...

DAMOアカデミーAIが中国科学技術博物館に展示され、AIが認識した初のCOVID-19 CTスキャンが科学技術による防疫努力の歴史的証人となる

5月29日、全国科学技術労働者の日が近づく中、アリババDAMOアカデミーのAIによって識別されラベル...

...