GoogleのオープンソースビッグモデルGemmaは何をもたらすのか？「Made in China」のチャンスはすでに到来していることが判明

Google の珍しいオープン AI は、オープンソースのビッグモデルに何をもたらすのでしょうか?

Gemmaがリリースされてから 4 日が経ちました。Google が待ち望んでいたこのオープンソースは、世界中のテクノロジーコミュニティに衝撃を与えたと言えます。

最初に公開されたとき、Googleの関係者とジェフ・ディーン氏は、Gemma 7Bが同レベルのLlama 2とMistralを上回ったことを強調しました。

最も人気のあるオープンソースの大型モデル Llama 2 と詳細を比較すると、総合的な能力、推論、数学、プログラミングの面で完全な勝利を収めています。

テクノロジーの巨人が制作し、外部に完全にオープンで、商用利用が無料、ラップトップで実行可能...さまざまな福祉ラベルが追加されたことで、世界中の「観客」を興奮させています。

最近、多くのネットユーザーもジェマに対する様々な評価を始めている。

たとえば、ある人が Ollama を使用して Macbook で Gemma 7B を実行しました。タスクは、記事の冒頭のテキストに基づいて記事の種類を判断することでした。

そして体験後の評価を次のように述べました。

比較的安定していて正確です！

ネットユーザーの中には、ジェマとミストラルを比較した結果、次のような発見をした人もいる。

確かに、Gemma-7B は Mistral-7B では答えられない質問に正しく答えることができます。

これらのパフォーマンスを見て、ネットユーザーはため息をつくほかない。

Google はオープンソースのビッグモデルのパターンを打ち破り、Gemma、Llama、Mistral が三脚を形成しました。

結果は十分に励みになるものの、オープンソースのビッグモデルに関しては、世界の注目は依然として海外からの「トップストリーム」に集中しているようだ。

すぐに浮かぶ疑問は次の通りです。

中国のオープンソースビッグモデルはどのように進んでいるのでしょうか?

オープンソースのビッグモデルの分野では、主流の欧米のテクノロジー大手に加え、中国の「プレーヤー」も長い間地位を占めてきました。

では、ジェマの登場によって、チャートのランキングに波はありましたか？

結果はちょっと予想外だった -

HuggingFace のオープンソース大規模モデルランキングでは、 Gemma は 70 億の事前トレーニング済みモデルの中で 3 位にランクされています。

1位と2位は、SenseTimeと上海AI実験室などが共同で開発した国内の大規模モデルプレイヤー「 InternLM2 （Shusheng·Pu Yu 2.0）」が獲得した。

では、オープンソースアーティストのトップに躍り出たジェマは、どのような点でポイントを失ったのでしょうか?

平均スコアを確認した後は、サブセグメントの状況も引き続き確認していきましょう。

まず、総合力（一般）では、InterLM2-7Bが65.8点を獲得し、Gemma-7Bをわずかに上回りました。

第二に、推論能力（Reasoning）の2つのベンチマークでは、InternLM2-7Bが1勝1引き分けを達成しました。

次は数学能力（Math）ですが、こちらもベンチマークが2つあります。InternLM2-7BはGSM8K評価ベンチマークで16ポイントを大きく上回っています。

最後に、プログラミング能力（コード）については、InternLM2-7B が 10 ポイントも高くなりました。

Llama-2 7B も含めると、InterLM2-7B はあらゆる面で完全な勝者となります。

それだけでなく、7B InternLM2 をより大きな 13B Llama-2 と比較しても、すべてのサブスコアで勝っています。

より直感的に言えば、InterLM2 と Gemma のパフォーマンス比較は次のようになります。

サプライズですか？実は、驚くことではありません。

なぜなら、Gemma がリリースされる前から、国内のオープンソースのビッグモデルはすでにさまざまなリストにランクインしており、一時的な流行ではなかったからです。

たとえば、InternLM2 は今年 1 月 17 日にリリースされ、2 つのパラメータ仕様、3 つのモデルバージョン、合計 6 つのモデルが用意されており、すべて商用利用が無料です。

インターンLM2ベース（7B、20B）
インターンLM2 (7B、20B)
インターンLM2-チャット（7B、20B）

当時、世界中の多くの7B体重級選手との競争において、InternLM2は「大きな円が小さな円を包む」姿勢を使用することで、パフォーマンスにおいて一定の優位性を獲得しました。

さらに、ChatGPT との比較プロセスでは、推論、数学、コードなどの主要な機能において ChatGPT を上回っています。

たとえば、InternLM2-Chat-20B は MATH と GSM8K で ChatGPT よりも優れたパフォーマンスを発揮します。コードインタープリターと併用すると、GPT-4 と同等のレベルに到達できます。

InternLM2 は 200K の超長いコンテキストもサポートしており、200 ページの財務レポートを簡単に読み取ることができます。 20万件のテキスト全体の重要情報の想起精度は95.62%に達しました。

たとえば、実際のアプリケーションでは、InterLM2 は 3 時間の会議記録や 212 ページの財務レポートを簡単に保存できます。

計算機などの外部ツールに頼ることなく、複雑な数学の問題を計算して解くことができます。

たとえば、100 以内の数学演算ではほぼ 100% の精度を達成でき、1000 以内では精度は 80% に達します。

コードインタープリターと併用すると、20B モデルは積分などの大学レベルの数学の問題を解くことができます。

これはどうやって行うのですか?研究チームから、彼らの戦略の鍵となるのはボリュームモデルのパラメータではなく、データであることがわかりました。

チームの見解では、非常に優れたバージョンのデータを抽出した後、さまざまな仕様のモデルのトレーニングをサポートできます。

したがって、まず第一に、データを最先端レベルに保つために、データの反復に多大な労力を費やす必要があります。中重量モデルと軽量モデルのデータを反復処理することで、より迅速に作業を進めることができます。

チームは高度なデータクリーニングおよびフィルタリングシステムを開発しており、その中核となる作業は次の3 つの主要部分に分かれています。

多次元データ価値分析：データの言語品質や情報密度など多面的に評価することで、データの価値を総合的に分析・向上します。たとえば、この調査では、フォーラムページのコメントはモデルのパフォーマンスの向上に限られた効果しか与えないことがわかりました。
高品質コーパスに基づくデータ拡張: チームは高品質コーパスの特性を活用して、現実世界、オンラインリソース、既存のコーパスからより関連性の高いデータを収集し、データセットをさらに充実させます。
対象を絞ったデータ補足: コーパスを意図的に補足し、特に世界知識、数学的論理、プログラミングコードなどの分野におけるコア機能を強化することで、データセットの深さと幅を改善します。

この「3 段階」のシステム設計により、データセットがそれに応じて最適化され、より豊富で正確なものとなり、モデルのトレーニングとアプリケーションのサポートが向上します。

もちろん、InternLM2 の開発は、モデルの基本性能の向上に限定されず、現在のアプリケーションのトレンドに対応し、特定の下流タスクのパフォーマンスを強化します。

例えば、超長いコンテキストの処理に対する現在の一般的な需要に応えて、チームは、ツール呼び出しや数学的推論などのアプリケーションシナリオでは、より長いコンテキスト情報を処理する必要があることを指摘しました。

この課題に対処するために、InternLM2 は、トレーニングデータの品質と構造化された関係を確保しながら、トレーニングウィンドウの容量を拡張し、位置エンコード技術を改善することで、コンテキストウィンドウのサポート容量を 200,000 トークンまで拡張することに成功しました。

これにより、モデルの長いテキストを処理する能力が向上するだけでなく、全体的なトレーニング効率も最適化されます。

これが、トップスターのジェマと対決しながらも、InternLM2がデビュー以来ずっとトップの座を維持できた理由です。

結論

最後に、記事の冒頭の質問に答えましょう。

Gemma はオープンソースのビッグモデルに何をもたらすのでしょうか?

まず、トレンドです。

ビッグモデルが普及して以来、オープンソースとクローズドソースの話題は続いています。

OpenAI の ChatGPT、GPT-4 などはクローズドソースの大規模モデルの代表であり、その強みは誰の目にも明らかです。以前は Llama、Mitral などがオープンソースの大規模モデルの代表でした。

AIの巨人であるGoogleは、大手モデル巨人同士のこれまでの争いに少し疲れたようだ。結局のところ、ベンチマーク製品としてのGeminiは、OpenAIの主導的地位を揺るがすものではなかったようだ。

今回、Google は珍しく自社のビッグモデルをオープンソース化し、オープンソースコミュニティの他のプレイヤーと競争するために Gemma をリリースしました。これまでに公開された結果から判断すると、Google は一定の優位性を獲得しています。

同時に、オープンソースプロジェクトが大規模モデルの開発において重要な役割を果たしていることも側面から反映しています。

2つ目は自信です。

おそらく多くの人々は、依然として主流の海外テクノロジー大手の大型モデルの開発に留まったり、注力したりしているのでしょう。

しかし、各種ランキングや評価のデータから判断すると、中国の大型モデルも強い競争力を持っている。

InternLM2-7Bのオープンソースモデルだけではありません。国内の大手モデルメーカーも、さまざまなパラメータやサイズのモデルを競い合っています。

そして結果から判断すると、彼らはすでに中国語と英語の総合的な能力において全面的な進歩を達成しています。

この観点から見ると、Gemma のリリースは、オープンソースビッグモデル業界における新たな強力なプレーヤーであるだけでなく、中国のオープンソースビッグモデル、さらには AI ビッグモデル業界全体に自信をもたらします。

総じて、年初から現在までのわずか2か月間で、大型モデルの戦場がますます活発になっていることを非常に直感的に感じることができます。

国産か外国産か、オープンソースかクローズドソースか、あるいはさまざまなマルチモダリティかに関わらず、GeminiからGemmaへ、SoraからStable Diffusion 3へ、大手テクノロジー企業が互いに追いかける傾向が強まっています。

しかし、一つ明らかなことは、すべてのリリースが推論とテクノロジーの使用方法に重点を置く傾向にあるということです。

したがって、おそらくビッグモデルの次のプロセスでは、自社の製品を「速く、良く、経済的」に使用できるようにできた人が最後に笑うことになるだろう。

<<: 人間と踊る！中国の6団体が制作したヒューマノイドロボットがストリートショーに進出

>>: ジェネレーティブAIは伝統的な医師と患者の関係を破壊している

GoogleのオープンソースビッグモデルGemmaは何をもたらすのか？「Made in China」のチャンスはすでに到来していることが判明

中国のオープンソースビッグモデルはどのように進んでいるのでしょうか?

結論

エッジAIとは何ですか?

データ構造とアルゴリズム: K 回の否定後の配列の合計を最大化する

マスク氏がテスラFSD V12の試乗を生放送！世界初のエンドツーエンドAI自動運転、10,000台のH100でトレーニング

AI Eyes: テクノロジーを活用して予防可能な失明をなくす

DeepMind: ビッグモデルのもう一つの大きな欠陥は、正しい答えが事前にわかっていなければ推論を自己修正できないことだ。

18のAIリーディングカンパニー、大学、研究機関が共同で初のAIフレームワークエコシステムイニシアチブを発表

AIがデータセンターを管理するのに時間がかかる理由

教育における人工知能の重要性とは何でしょうか?

推薦する

天才少年・志慧君が志遠ロボットとともに会場に入場！脳としてAIモデル、目標価格は20万以下

百度の自動運転技術は掘削機の運転を熟練ドライバーと同等の効率化に導く

散乱アルゴリズムの3つのソリューションとその選択シナリオ

デジタル外交はAI外交へと進化している。どのような課題に直面するのだろうか？

選択ガイド：機械学習をサポートする8つのデータベースの詳細解説

GPT-3.5 を選択すべきでしょうか、それとも Llama 2 などのオープンソースモデルを微調整すべきでしょうか?総合的に比較した結果、答えは

ロボットは人間と機械の協働チームの「リーダー」になれるでしょうか?どのように機能しますか?

TransformerがCNNバックボーンネットワークを活性化、HKUとTencentの視覚的自己教師あり表現学習CARE

新しい技術が機械学習モデルの推論を人間の推論と比較する

柯潔はなぜ「負けてカッとなった」と言ったのか！人間対機械の第一ラウンドを説明する8つの質問

高性能 LLM 推論フレームワークの設計と実装

Google が Mirasol をリリース: 30 億のパラメータで、マルチモーダル理解を長時間動画にまで拡張