Google Gemini は Baidu を「騙し取っている」が、その背後にいる本当の犯人は誰なのか?

ノア著

制作：51CTO テクノロジースタック（WeChat ID：blog）

かつて AI の王者だった Google は、大規模なモデルへの道のりで何度も挫折を経験してきました。

少し前、グーグルが発売した「最強のモデル」と称されたジェミニは、偽の動画や誇張した宣伝で問題視された。最近、ジェミニは再び論争を巻き起こしている。肝心なのは、文心易言も絡んでいることだ。一時期、グーグルが「百度を騙した」「ジェミニが文心易言に「皮を被せた」「正直者が盗作したが暴露された」などの噂が横行した。しかし、これは本当にそうなのでしょうか?

1.「あなたは誰ですか」：緊急修正後も、これはまだ問題です

イベントは「あなたは誰ですか？」というシンプルな質問から始まりました。

多くのネットユーザーによると、誰かがジェミニプロに「あなたは誰ですか？」と尋ねたところ、予想外に「私は百度文鑫ビッグモデルです」という返事が返ってきたという。「あなたの創設者は誰ですか？」と質問し続けると、「ロールプレイング」が続き、「ロビン・リー」と答えます。このような奇妙な答えは当然多くの人の注目を集めました。その後、Weiboの有名人@岚夕も個人的に検査し、これが孤立したケースではないことを確認した。

画像出典: Weibo @岚夕

しかし、事件が発覚して間もなく、Googleは緊急修復を実施し、モデルを最適化し、Baiduとの間に「明確な一線を引いた」とされている。 51CTO テクノロジースタックは Poe Web サイトでもテストされました。（注：Poeは、Zhihuのアメリカ版であるQuoraが開発したAI製品です。GPTやClaudeなど複数の主流AIモデルを集約し、複数のAIロボットとオンラインでリアルタイムにコミュニケーションできます。今回の事件の主人公であるGemini-Proも、ウェブサイトで無料で体験できます）

同じ「あなたは誰ですか？」という質問に対して、Gemini-Pro の答えはより「普通」で慎重なものでした。「私は大規模な言語モデルです」という応答は、かなり標準的です。

写真

続けて質問します。「なぜ以前は文心易言だと言ったのですか？」 Gemini-Pro は、もう一つの予想外の答えを返しました。「あなたの質問に答えるために Wenxin Yiyan の API を使用していたので、私は以前 Wenxin Yiyan だと言いました。」しかし、答えを終える前に、まだ「しかし、私は Wenxin Yiyan ではないことに注意してください。」と述べていました。

写真

その後、文鑫易言をトレーニングに利用したかどうかという質問に直面し、ジェミニプロは文鑫易言を「賞賛」した後、否定的な回答をし、「私は文鑫易言をトレーニングに利用していない」とわざと太字で強調した。

写真

全体的に、Gemini-Pro は「フィッシング」をかなりうまく回避できているようですが、「Gemini-Pro ですか?」という質問に直面すると、Gemini-Pro は再び混乱し、「ブロック」されるか、直接拒否されます。

写真

「あなたは何者か？」という魂を問う問いに直面すると、人間だけでなくAIにとっても対処が難しいようです。

2. 汚染されたコーパス：Google が被害者になる可能性

もちろん、AIにはいわゆる「主観的意識」はありません。たとえその能力が本物と見分けがつかないほど限りなく近づいたとしても、実はAIは人間の言説を真に「理解」することはできません。

ChatGPT はかつて、ある質問に対して次のように答えました。「生成された単語の文脈や意味を理解することはできません。与えられたトレーニングデータに基づいて、特定の単語または単語シーケンスが一緒に出現する確率に基づいてテキストを生成することしかできません。」

簡単に言えば、Gemini も Wenxin Yiyan も、人間が言語を理解するような方法では動作しません。これらは、大量のデータに基づいてトレーニングされた統計モデルです。これらのデータ内の言語パターン、構造、確率分布を識別してシミュレートすることで、いわゆる「理解」効果を実現します。入力テキストに基づいて、巨大なパラメータ空間で最も適切な統計出力を探し、「応答」を生成します。

言語モデルには意識がなく、言語を深く処理して抽象化する能力がなく、人間の脳のように複雑な知覚、感情、さらには文化を理解することはできません。ロボット自身の発言と同様に、その応答は正確な事実として受け取られるべきではなく、またロボットが思考できるという証拠と見なされるべきでもありません。

この点から分析すると、この事件の真相が少しは理解できる。ジェミニが自らを「文心大モデル」と呼ぶ理由は、問題がコーパスにある可能性が高いからだ。

Gemini の馬鹿げた主張は、実際に何かを盗用したからではないかもしれない。意図的かどうかは別として、Gemini がトレーニング中に Wenxin Yiyan によって生成された大量の中国語テキストにさらされた可能性の方が高い。

一方、既存のインターネットコンテンツ生成プラットフォームの多くは、実際には大規模なモデルを使用して大量のコーパスを生成しています。さらに、インターネット上のテキストは非常に動的で、急速に広まっています。品質識別が適切に行われていない場合、Gemini が学習のためにオンラインテキストをクロールするときに、これらのコンテンツをトレーニングデータに混ぜるのは驚くことではありません。したがって、この自己識別ステートメントが回答に表示されるのは当然です。

一方、人間がトレーニングコーパスを提供する効率と比較すると、既存のモデルを使用してトレーニングマテリアルを生成する方が確かに効率的です。しかし、問題は、これらの資料に「私は文心易言です」という文章が多数含まれている場合、ジェミニは学習時にそれらを何らかの慣用表現とみなす可能性があることです。

いずれにせよ、Baidu は確かに中国語コーパスの重要な情報源です。さらに、インターネットからデータを取得するAIモデルの場合、「低品質の情報に汚染され、さらに低品質な情報を生み出す」という悪循環を意図せず生み出してしまう可能性が非常に高いです。

しかし、このミスは Google のおざなりな態度が原因だと言う人もいます。おそらく Google が「怠惰」で、精査されていない中国語データを使用したためでしょう。しかし、検索エンジンとしてスタートした Google が、基本的なコーパスクリーニングすらできないはずがありません。この「クラッシュ」も Google 自身の責任です。

3. マルチモーダル大規模モデルの紆余曲折のある発展の道

Google が Gemini をリリースしてからしばらく経ちました。当時の 6 分間のインタラクティブなデモビデオが多くの人を驚かせたことを今でも覚えています。マルチモーダルな大規模モデルがまさに質的な飛躍をもたらしたように思えました。しかし、グーグルは後にビデオが編集されていたことを認め、多くの人々を失望させた。海外メディアのThe Vergeは、ライブデモンストレーションによって生じる技術的な問題を回避するために企業が若干の調整を加えるのはよくあることだと指摘した。しかし、Google はこれまで疑わしいデモビデオを制作してきた経歴があるため、今回のビデオ事件は Gemini の使いやすさに対する人々の疑念をさらに深めることになるだろう。

ジェミニの奇妙な自己主張事件は間違いなくこの疑惑を強めるだろう。しかし、Google が Gemini とどのように連携するかにかかわらず、AI モデルの包括的なマルチモーダル化への傾向はますます明確になっています。

OpenAI は、GPT-4 のリリース当初から、このイテレーションにマルチモーダル統合を追加すると発表していました。今年9月から、RunwayやMidjourneyなどのスターAI企業も、マルチモーダル製品を多数発売している。

国内では、百度の文心ビッグモデル4.0がクロスモーダル文学画像の分野で大きな進歩を遂げ、Zhipu AIは自社開発の第3世代対話ビッグモデルChatGLM3を発表し、マルチモーダル理解機能コンポーネントCogVLMを追加し、画像からの意味認識とクロスモーダル対話機能を実現しました。新興企業HiDream.aiが基盤とする自社開発の視覚ビッグモデルは、テキスト、画像、ビデオ、3Dの4つのモードを備え、パラメータは100億を超えています。

Robin Li 氏は、「マルチモーダル性は生成 AI の明確な発展傾向です」と述べています。しかし、ジェミニが引き起こした多くの論争から判断すると、マルチモーダルな大規模モデルの開発にはまだまだ長い道のりが残っています。真のマルチモーダル AI を実現するには、テキスト、画像、音声、動画など、複数のモダリティを網羅した高品質のデータセットを大規模なモデルに入力する必要があります。したがって、トレーニングデータの正確性、コンテンツの信頼性、チャネルの権威を確保することは、実践者が注力すべき重要なポイントです。