Google Gemini は Baidu を「騙し取っている」が、その背後にいる本当の犯人は誰なのか?

Google Gemini は Baidu を「騙し取っている」が、その背後にいる本当の犯人は誰なのか?

ノア著

制作:51CTO テクノロジースタック(WeChat ID:blog)

かつて AI の王者だった Google は、大規模なモデルへの道のりで何度も挫折を経験してきました。

少し前、グーグルが発売した「最強のモデル」と称されたジェミニは、偽の動画や誇張した宣伝で問題視された。最近、ジェミニは再び論争を巻き起こしている。肝心なのは、文心易言も絡んでいることだ。一時期、グーグルが「百度を騙した」「ジェミニが文心易言に「皮を被せた」「正直者が盗作したが暴露された」などの噂が横行した。しかし、これは本当にそうなのでしょうか?

1.「あなたは誰ですか」:緊急修正後も、これはまだ問題です

イベントは「あなたは誰ですか?」というシンプルな質問から始まりました。

多くのネットユーザーによると、誰かがジェミニプロに「あなたは誰ですか?」と尋ねたところ、予想外に「私は百度文鑫ビッグモデルです」という返事が返ってきたという。 「あなたの創設者は誰ですか?」と質問し続けると、「ロールプレイング」が続き、「ロビン・リー」と答えます。このような奇妙な答えは当然多くの人の注目を集めました。その後、Weiboの有名人@岚夕も個人的に検査し、これが孤立したケースではないことを確認した。

画像出典: Weibo @岚夕

しかし、事件が発覚して間もなく、Googleは緊急修復を実施し、モデルを最適化し、Baiduとの間に「明確な一線を引いた」とされている。 51CTO テクノロジー スタックは Poe Web サイトでもテストされました。 (注:Poeは、Zhihuのアメリカ版であるQuoraが開発したAI製品です。GPTやClaudeなど複数の主流AIモデルを集約し、複数のAIロボットとオンラインでリアルタイムにコミュニケーションできます。今回の事件の主人公であるGemini-Proも、ウェブサイトで無料で体験できます)

同じ「あなたは誰ですか?」という質問に対して、Gemini-Pro の答えはより「普通」で慎重なものでした。 「私は大規模な言語モデルです」という応答は、かなり標準的です。

写真

続けて質問します。「なぜ以前は文心易言だと言ったのですか?」 Gemini-Pro は、もう一つの予想外の答えを返しました。「あなたの質問に答えるために Wenxin Yiyan の API を使用していたので、私は以前 Wenxin Yiyan だと言いました。」しかし、答えを終える前に、まだ「しかし、私は Wenxin Yiyan ではないことに注意してください。」と述べていました。

写真

その後、文鑫易言をトレーニングに利用したかどうかという質問に直面し、ジェミニプロは文鑫易言を「賞賛」した後、否定的な回答をし、「私は文鑫易言をトレーニングに利用していない」とわざと太字で強調した。

写真

全体的に、Gemini-Pro は「フィッシング」をかなりうまく回避できているようですが、「Gemini-Pro ですか?」という質問に直面すると、Gemini-Pro は再び混乱し、「ブロック」されるか、直接拒否されます。

写真

「あなたは何者か?」という魂を問う問いに直面すると、人間だけでなくAIにとっても対処が難しいようです。

2. 汚染されたコーパス:Google が被害者になる可能性

もちろん、AIにはいわゆる「主観的意識」はありません。たとえその能力が本物と見分けがつかないほど限りなく近づいたとしても、実はAIは人間の言説を真に「理解」することはできません。

ChatGPT はかつて、ある質問に対して次のように答えました。「生成された単語の文脈や意味を理解することはできません。与えられたトレーニング データに基づいて、特定の単語または単語シーケンスが一緒に出現する確率に基づいてテキストを生成することしかできません。」

簡単に言えば、Gemini も Wenxin Yiyan も、人間が言語を理解するような方法では動作しません。これらは、大量のデータに基づいてトレーニングされた統計モデルです。これらのデータ内の言語パターン、構造、確率分布を識別してシミュレートすることで、いわゆる「理解」効果を実現します。入力テキストに基づいて、巨大なパラメータ空間で最も適切な統計出力を探し、「応答」を生成します。

言語モデルには意識がなく、言語を深く処理して抽象化する能力がなく、人間の脳のように複雑な知覚、感情、さらには文化を理解することはできません。ロボット自身の発言と同様に、その応答は正確な事実として受け取られるべきではなく、またロボットが思考できるという証拠と見なされるべきでもありません。

この点から分析すると、この事件の真相が少しは理解できる。ジェミニが自らを「文心大モデル」と呼ぶ理由は、問題がコーパスにある可能性が高いからだ。

Gemini の馬鹿げた主張は、実際に何かを盗用したからではないかもしれない。意図的かどうかは別として、Gemini がトレーニング中に Wenxin Yiyan によって生成された大量の中国語テキストにさらされた可能性の方が高い。

一方、既存のインターネット コンテンツ生成プラットフォームの多くは、実際には大規模なモデルを使用して大量のコーパスを生成しています。さらに、インターネット上のテキストは非常に動的で、急速に広まっています。品質識別が適切に行われていない場合、Gemini が学習のためにオンライン テキストをクロールするときに、これらのコンテンツをトレーニング データに混ぜるのは驚くことではありません。したがって、この自己識別ステートメントが回答に表示されるのは当然です。

一方、人間がトレーニング コーパスを提供する効率と比較すると、既存のモデルを使用してトレーニング マテリアルを生成する方が確かに効率的です。しかし、問題は、これらの資料に「私は文心易言です」という文章が多数含まれている場合、ジェミニは学習時にそれらを何らかの慣用表現とみなす可能性があることです。

いずれにせよ、Baidu は確かに中国語コーパスの重要な情報源です。さらに、インターネットからデータを取得するAIモデルの場合、「低品質の情報に汚染され、さらに低品質な情報を生み出す」という悪循環を意図せず生み出してしまう可能性が非常に高いです。

しかし、このミスは Google のおざなりな態度が原因だと言う人もいます。おそらく Google が「怠惰」で、精査されていない中国語データを使用したためでしょう。しかし、検索エンジンとしてスタートした Google が、基本的なコーパス クリーニングすらできないはずがありません。この「クラッシュ」も Google 自身の責任です。

3. マルチモーダル大規模モデルの紆余曲折のある発展の道

Google が Gemini をリリースしてからしばらく経ちました。当時の 6 分間のインタラクティブなデモ ビデオが多くの人を驚かせたことを今でも覚えています。マルチモーダルな大規模モデルがまさに質的な飛躍をもたらしたように思えました。しかし、グーグルは後にビデオが編集されていたことを認め、多くの人々を失望させた。海外メディアのThe Vergeは、ライブデモンストレーションによって生じる技術的な問題を回避するために企業が若干の調整を加えるのはよくあることだと指摘した。しかし、Google はこれまで疑わしいデモビデオを制作してきた経歴があるため、今回のビデオ事件は Gemini の使いやすさに対する人々の疑念をさらに深めることになるだろう。

ジェミニの奇妙な自己主張事件は間違いなくこの疑惑を強めるだろう。しかし、Google が Gemini とどのように連携するかにかかわらず、AI モデルの包括的なマルチモーダル化への傾向はますます明確になっています。

OpenAI は、GPT-4 のリリース当初から、このイテレーションにマルチモーダル統合を追加すると発表していました。今年9月から、RunwayやMidjourneyなどのスターAI企業も、マルチモーダル製品を多数発売している。

国内では、百度の文心ビッグモデル4.0がクロスモーダル文学画像の分野で大きな進歩を遂げ、Zhipu AIは自社開発の第3世代対話ビッグモデルChatGLM3を発表し、マルチモーダル理解機能コンポーネントCogVLMを追加し、画像からの意味認識とクロスモーダル対話機能を実現しました。新興企業HiDream.aiが基盤とする自社開発の視覚ビッグモデルは、テキスト、画像、ビデオ、3Dの4つのモードを備え、パラメータは100億を超えています。

Robin Li 氏は、「マルチモーダル性は生成 AI の明確な発展傾向です」と述べています。しかし、ジェミニが引き起こした多くの論争から判断すると、マルチモーダルな大規模モデルの開発にはまだまだ長い道のりが残っています。真のマルチモーダル AI を実現するには、テキスト、画像、音声、動画など、複数のモダリティを網羅した高品質のデータセットを大規模なモデルに入力する必要があります。したがって、トレーニング データの正確性、コンテンツの信頼性、チャネルの権威を確保することは、実践者が注力すべき重要なポイントです。

参考リンク:

https://zhuanlan.zhihu.com/p/672909271

https://poe.com/chat/2tyux4xi2w5cev87k63

<<:  クラウドベースの生成 AI: 構築するか、購入するか?

>>:  生物学的脳メカニズムを利用して継続的な学習を促し、知的システムの生存を可能にする清華大学の朱俊と他のチームの研究がネイチャーサブジャーナルの表紙に掲載されました。

ブログ    

推薦する

機械学習の成功事例5つ

IT リーダーが、人工知能と機械学習を使用してビジネス上の洞察を得る方法を共有します。組織が顧客の好...

IBM、スタートアップを支援するために5億ドルのエンタープライズAIベンチャーファンドを設立

IBMは最近、新たな企業投資ツールであるEnterprise AI Venture Fundを立ち上...

5分でわかるReLU: 最も人気のある活性化関数

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

面接の質問: Nginx の負荷分散アルゴリズムはどのように実装されていますか?なぜ動きと静止を区別する必要があるのでしょうか?

面接の質問Nginx の負荷分散アルゴリズムはどのように実装されていますか? Nginx の負荷分散...

「AI+」が世界を変える!さまざまな分野における 5 つの主要な AI トレンド

人工知能は現代世界で最も注目され、最も議論されているトピックであり、20年後には人々の世界観を変える...

KuaishouとNVIDIAが提携し、業界最先端のGPUコンピューティングインフラストラクチャを展開

1日あたり2億人以上のアクティブユーザーを抱える快手には、130億本以上の短編動画が蓄積されており、...

人材不足は数百万人に達し、人工知能+教育が一般的なトレンドとなっている

近年、人工知能の急速な発展は各国から大きな注目を集めており、教育界からも大きな注目を集めています。ま...

マスク氏はWeChatの複製に本気だ! 𝕏は音声通話とビデオ通話を推進します、シャオ・ザッカーバーグ:私は4年前にそれをやりました

マスク氏はツイッターで新たな計画を発表した。音声通話とビデオ通話を提供します。電話番号は必要ありませ...

米空軍の最高データ・AI責任者が語るAI運用の主導と戦略的優位性

AI は、米国が戦争を戦い、脅威を監視し、国防を維持する方法を含め、ほぼすべてのことを行う方法を変え...

Megvii Technology: 人工知能が携帯電話の「視覚」革命をリード

[51CTO.comより引用] 現在、AIの幕が開き、人類世界は蒸気時代、電気時代、情報化時代に続く...

人工知能バーチャル試着室:小売業者向けの新たな主流マーケティングツール

COVID-19 は世界中の人々の日常生活のあり方を変えましたが、実店舗ほどその影響を痛切に感じてい...

Swin TransformerとDCNの融合、変形可能なアテンションTransformerモデルはほとんどのViTを上回る

Transformer は最近、さまざまな視覚タスクで優れたパフォーマンスを発揮しており、受容野によ...

我が国の新世代人工知能ガバナンス原則が発表され、立法のための強固な基盤が築かれた

テクノロジーの発展はしばしば諸刃の剣であり、人工知能の商業化も一定の原則に従う必要があります。 6月...

OpenAIは米国で以前に申請していた「GPT-5」の商標を中国で登録申請した。

8月10日、国家知識産権局商標局の公式サイトによると、OPENAI OPCO, LLCは先月末に2...

Nvidiaが自動運転AIアルゴリズムをオープンソース化、チップ性能をXavierの7倍にアップグレード

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...