Googleが小規模でGeminiのテストを開始したと報道：GPT-4のトレーニングよりも5倍強力で、マルチモーダル機能が大幅に向上

今年5月のGoogle I/Oカンファレンスで、ピチャイ氏はGPT-4と競合する大規模モデルであるPaLM 2を発表したが、同時にGoogleの研究の焦点がマルチモーダルで効率的な機械学習ツールであるGeminiに移行していることにも言及した。

Gemini の開発を加速するため、Google は今年 4 月に社内の 2 つの人工知能研究所である Google Brain と DeepMind を統合しました。Gemini の共同プロジェクトは、2 つの研究所の研究者チームが主導しています。

今後数か月で、Gemini の謎は徐々に明らかになってきました。このモデルは Google Brain と DeepMind の合併後に開発され、GPT-4 のように数兆個のパラメータを持つことが大まかにわかっています。Gemini はトレーニング中に、以前のモデルでは見られなかったマルチモーダル機能を実証しました。微調整と厳格なセキュリティテストを経た後、Google はさまざまな製品、アプリケーション、デバイスへの展開を確実にするために、さまざまなサイズと機能の Gemini バージョンも提供します。

最新のニュースとしては、Google が少数の企業に Gemini ソフトウェアの初期バージョンの使用を許可したということだ。これは、Google がこれを消費者向けサービスに組み込み、同社のクラウドコンピューティングサービスを通じて企業に販売しようとしていることを意味する。

GPT-4を超えることはできるでしょうか？

最近、SemiAnalysisのアナリストであるDylan Patel氏とDaniel Nishball氏が、Geminiに関するさらなる情報を公開しました。その中で、Dylan Patel氏は今年7月11日にGPT-4のアーキテクチャを公開しました。

Dylan Patel 氏と Daniel Nishball 氏は、Gemini の第一世代は TPUv4 でトレーニングされるはずだったこと、そしてこれらのポッドは最大数のチップ (4096 個) を統合せず、チップの信頼性とホットスワップを確保するためにより少数のチップを使用したことを明らかにしました。 14 個のポッドすべてを適切なマスクフィールド使用率 (MFU) で約 100 日間使用した場合、Gemini のトレーニングに必要なハードウェア FLOPS は 1e26 を超えます。

しかし、Gemini は最大 1e26 FLOPS の計算能力を備えた新しい TPUv5 Pod でのトレーニングを開始しました。これは GPT-4 のトレーニングよりも 5 倍の計算能力です。

また、GeminiのトレーニングデータベースはYoutube上の93.6億分の動画字幕で、データセット全体のサイズはGPT-4の約2倍になります。

Gemini は大規模な言語モデルのグループで構成されており、MOE アーキテクチャと投機的サンプリング技術を使用して、事前に小規模モデルを通じてトークンを生成し、それを大規模モデルに転送して評価することで、モデルの全体的な推論速度を向上させることができます。

機能面では、Gemini は、チャットボットからテキストの要約、ユーザーが読みたい内容の説明に基づいた生のテキスト (電子メールの下書き、歌詞、ニュース記事など) の生成まで、あらゆるものをサポートしています。さらに、Gemini はソフトウェアエンジニアがユーザーの要件に応じてコードを記述し、オリジナルの画像を生成するのに役立ちます。

以前 The Information が報じたように、Google は Gemini によってソフトウェア開発者のコード生成機能が大幅に向上し、Microsoft の GitHub Copilot コードアシスタントに追いつくことを期待している。

Google の従業員は、Gemini を使用してチャート分析などの機能を実行したり、完成したチャートの意味をモデルに説明させたり、テキストまたは音声コマンドを使用して Web ブラウザやその他のソフトウェアを操作したりすることも検討しました。

GPT-4 をテストしたある人物は、少なくとも 1 つの点で Gemini は GPT-4 より優れていると述べています。つまり、Web 上の公開情報に加えて、Gemini は Google が消費者向け製品から取得した膨大な独自データも活用しているということです。したがって、モデルは特定のクエリに対するユーザーの意図を理解するのに特に正確であるはずであり、誤った回答（つまり、幻覚）を生成することが少なくなるようです。

Google Cloudが追いつくチャンス

Google は、今年初めに OpenAI が GPT-4 へのアクセスの販売を開始して以来、ここ数カ月間、既存の商用モデルをより多くの開発者に積極的に提供してきました。

今年 5 月、Google は Vertex AI を通じて Google Cloud の顧客に PaLM 2 を提供すると発表しました。事情に詳しい別の人物によると、グーグルは自社の「Google Cloud Vertex AI」サービスを通じて企業にさまざまな規模のジェミニを提供する計画で、開発者は単純なタスクを処理するためのあまり複雑でないバージョンか、個人のデバイスで実行できるほど小さいバージョンを有料で購入できるという。

同関係者は、Googleは現在、開発者に比較的大きなGeminiバージョンの使用を許可しているが、GPT-4に近い開発中の最大バージョンは許可していないと付け加えた。

Gemini のリリースは Google にとって大きな出来事です。 Google は、このソフトウェアがクラウドサーバーレンタル事業を促進するだけでなく、Bard チャットボットから Workspace ソフトウェアまでの新機能をサポートすることを期待して、OpenAI に対抗する武器としてこのソフトウェアの開発に多大なコンピューティングリソースと人材を費やしてきました。

The Information の報道によると、OpenAI や、企業の人工知能の開発と利用を支援する Databricks などのソフトウェア企業も、会話型 AI から大きな収益を生み出すと予測しているという。しかし、オープンソースの大規模モデルの台頭により、Google と OpenAI が独自のモデルへのアクセスを販売することで得ている注目度が下がる可能性がある。

ある日、あなたが目を覚ますと、Gemini が正式にリリースされ、その謎が完全に明かされるかもしれません。

Google は Gemini で流れを変えることができるか?ただ辛抱するしかない。

<<: 3nmなのに歯磨き粉を絞ってるだけ？ A17 Proの実行スコアが公開：CPUマルチコアはわずか3.6%向上

>>: 放射線科学における LLM の潜在的な応用は何ですか?数十の研究機関が共同で31の大型モデルをテスト