Google の珍しいオープン AI は、オープンソースのビッグモデルに何をもたらすのでしょうか? Gemmaがリリースされてから 4 日が経ちました。Google が待ち望んでいたこのオープンソースは、世界中のテクノロジー コミュニティに衝撃を与えたと言えます。 最初に公開されたとき、Googleの関係者とジェフ・ディーン氏は、Gemma 7Bが同レベルのLlama 2とMistralを上回ったことを強調しました。 最も人気のあるオープンソースの大型モデル Llama 2 と詳細を比較すると、総合的な能力、推論、数学、プログラミングの面で完全な勝利を収めています。 テクノロジーの巨人が制作し、外部に完全にオープンで、商用利用が無料、ラップトップで実行可能...さまざまな福祉ラベルが追加されたことで、世界中の「観客」を興奮させています。 最近、多くのネットユーザーもジェマに対する様々な評価を始めている。 たとえば、ある人が Ollama を使用して Macbook で Gemma 7B を実行しました。タスクは、記事の冒頭のテキストに基づいて記事の種類を判断することでした。 そして体験後の評価を次のように述べました。
ネットユーザーの中には、ジェマとミストラルを比較した結果、次のような発見をした人もいる。
これらのパフォーマンスを見て、ネットユーザーはため息をつくほかない。
結果は十分に励みになるものの、オープンソースのビッグモデルに関しては、世界の注目は依然として海外からの「トップストリーム」に集中しているようだ。 すぐに浮かぶ疑問は次の通りです。 中国のオープンソースビッグモデルはどのように進んでいるのでしょうか?オープンソースのビッグモデルの分野では、主流の欧米のテクノロジー大手に加え、中国の「プレーヤー」も長い間地位を占めてきました。 では、ジェマの登場によって、チャートのランキングに波はありましたか? 結果はちょっと予想外だった - HuggingFace のオープンソース大規模モデルランキングでは、 Gemma は 70 億の事前トレーニング済みモデルの中で 3 位にランクされています。 1位と2位は、SenseTimeと上海AI実験室などが共同で開発した国内の大規模モデルプレイヤー「 InternLM2 (Shusheng·Pu Yu 2.0)」が獲得した。 では、オープンソースアーティストのトップに躍り出たジェマは、どのような点でポイントを失ったのでしょうか? 平均スコアを確認した後は、サブセグメントの状況も引き続き確認していきましょう。 まず、総合力(一般)では、InterLM2-7Bが65.8点を獲得し、Gemma-7Bをわずかに上回りました。 第二に、推論能力(Reasoning)の2つのベンチマークでは、InternLM2-7Bが1勝1引き分けを達成しました。 次は数学能力(Math)ですが、こちらもベンチマークが2つあります。InternLM2-7BはGSM8K評価ベンチマークで16ポイントを大きく上回っています。 最後に、プログラミング能力(コード)については、InternLM2-7B が 10 ポイントも高くなりました。 Llama-2 7B も含めると、InterLM2-7B はあらゆる面で完全な勝者となります。 それだけでなく、7B InternLM2 をより大きな 13B Llama-2 と比較しても、すべてのサブスコアで勝っています。 より直感的に言えば、InterLM2 と Gemma のパフォーマンス比較は次のようになります。 サプライズですか?実は、驚くことではありません。 なぜなら、Gemma がリリースされる前から、国内のオープンソースのビッグモデルはすでにさまざまなリストにランクインしており、一時的な流行ではなかったからです。 たとえば、InternLM2 は今年 1 月 17 日にリリースされ、2 つのパラメータ仕様、3 つのモデル バージョン、合計 6 つのモデルが用意されており、すべて商用利用が無料です。
当時、世界中の多くの7B体重級選手との競争において、InternLM2は「大きな円が小さな円を包む」姿勢を使用することで、パフォーマンスにおいて一定の優位性を獲得しました。 さらに、ChatGPT との比較プロセスでは、推論、数学、コードなどの主要な機能において ChatGPT を上回っています。 たとえば、InternLM2-Chat-20B は MATH と GSM8K で ChatGPT よりも優れたパフォーマンスを発揮します。コード インタープリターと併用すると、GPT-4 と同等のレベルに到達できます。 InternLM2 は 200K の超長いコンテキストもサポートしており、200 ページの財務レポートを簡単に読み取ることができます。 20万件のテキスト全体の重要情報の想起精度は95.62%に達しました。 たとえば、実際のアプリケーションでは、InterLM2 は 3 時間の会議記録や 212 ページの財務レポートを簡単に保存できます。 計算機などの外部ツールに頼ることなく、複雑な数学の問題を計算して解くことができます。 たとえば、100 以内の数学演算ではほぼ 100% の精度を達成でき、1000 以内では精度は 80% に達します。 コードインタープリターと併用すると、20B モデルは積分などの大学レベルの数学の問題を解くことができます。 これはどうやって行うのですか?研究チームから、彼らの戦略の鍵となるのはボリュームモデルのパラメータではなく、データであることがわかりました。 チームの見解では、非常に優れたバージョンのデータを抽出した後、さまざまな仕様のモデルのトレーニングをサポートできます。
チームは高度なデータクリーニングおよびフィルタリング システムを開発しており、その中核となる作業は次の3 つの主要部分に分かれています。
この「3 段階」のシステム設計により、データ セットがそれに応じて最適化され、より豊富で正確なものとなり、モデルのトレーニングとアプリケーションのサポートが向上します。 もちろん、InternLM2 の開発は、モデルの基本性能の向上に限定されず、現在のアプリケーションのトレンドに対応し、特定の下流タスクのパフォーマンスを強化します。 例えば、超長いコンテキストの処理に対する現在の一般的な需要に応えて、チームは、ツール呼び出しや数学的推論などのアプリケーションシナリオでは、より長いコンテキスト情報を処理する必要があることを指摘しました。 この課題に対処するために、InternLM2 は、トレーニング データの品質と構造化された関係を確保しながら、トレーニング ウィンドウの容量を拡張し、位置エンコード技術を改善することで、コンテキスト ウィンドウのサポート容量を 200,000 トークンまで拡張することに成功しました。 これにより、モデルの長いテキストを処理する能力が向上するだけでなく、全体的なトレーニング効率も最適化されます。 これが、トップスターのジェマと対決しながらも、InternLM2がデビュー以来ずっとトップの座を維持できた理由です。 結論最後に、記事の冒頭の質問に答えましょう。 Gemma はオープンソースのビッグモデルに何をもたらすのでしょうか? まず、トレンドです。 ビッグモデルが普及して以来、オープンソースとクローズドソースの話題は続いています。 OpenAI の ChatGPT、GPT-4 などはクローズドソースの大規模モデルの代表であり、その強みは誰の目にも明らかです。以前は Llama、Mitral などがオープンソースの大規模モデルの代表でした。 AIの巨人であるGoogleは、大手モデル巨人同士のこれまでの争いに少し疲れたようだ。結局のところ、ベンチマーク製品としてのGeminiは、OpenAIの主導的地位を揺るがすものではなかったようだ。 今回、Google は珍しく自社のビッグモデルをオープンソース化し、オープンソースコミュニティの他のプレイヤーと競争するために Gemma をリリースしました。これまでに公開された結果から判断すると、Google は一定の優位性を獲得しています。 同時に、オープンソース プロジェクトが大規模モデルの開発において重要な役割を果たしていることも側面から反映しています。 2つ目は自信です。 おそらく多くの人々は、依然として主流の海外テクノロジー大手の大型モデルの開発に留まったり、注力したりしているのでしょう。 しかし、各種ランキングや評価のデータから判断すると、中国の大型モデルも強い競争力を持っている。 InternLM2-7Bのオープンソースモデルだけではありません。国内の大手モデルメーカーも、さまざまなパラメータやサイズのモデルを競い合っています。 そして結果から判断すると、彼らはすでに中国語と英語の総合的な能力において全面的な進歩を達成しています。 この観点から見ると、Gemma のリリースは、オープンソース ビッグモデル業界における新たな強力なプレーヤーであるだけでなく、中国のオープンソース ビッグモデル、さらには AI ビッグモデル業界全体に自信をもたらします。 総じて、年初から現在までのわずか2か月間で、大型モデルの戦場がますます活発になっていることを非常に直感的に感じることができます。 国産か外国産か、オープンソースかクローズドソースか、あるいはさまざまなマルチモダリティかに関わらず、GeminiからGemmaへ、SoraからStable Diffusion 3へ、大手テクノロジー企業が互いに追いかける傾向が強まっています。 しかし、一つ明らかなことは、すべてのリリースが推論とテクノロジーの使用方法に重点を置く傾向にあるということです。 したがって、おそらくビッグモデルの次のプロセスでは、自社の製品を「速く、良く、経済的」に使用できるようにできた人が最後に笑うことになるだろう。 |
<<: 人間と踊る!中国の6団体が制作したヒューマノイドロボットがストリートショーに進出
>>: ジェネレーティブAIは伝統的な医師と患者の関係を破壊している
現在、製造業における人工知能技術の応用が急成長しています。自社にとって適切な人工知能ツールをどのよう...
[[281197]] [はじめに] 顔認識はコンピュータビジョンにおける最大の研究分野の一つです。...
導入世界的に有名なコンサルティング会社であるアクセンチュアは最近、AI がもたらす産業革新がもたらす...
[[443145]] [51CTO.com クイック翻訳] 2022 年が近づくにつれ、人々は 20...
負荷分散アルゴリズムの種類を分析した後、動的負荷分散について紹介します。この概念は主にロードバランサ...
こんにちは!皆さん、こんにちは。私は大学の科学研究者で、主に人工知能の分野で研究を行っています。今後...
変分量子分類器 (VQC) は、量子コンピューティング技術を使用して分類タスクを実行する機械学習アル...
この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...
2月3日午前11時頃、捜狗入力法の一部のユーザーは、河北省興隆市でマグニチュード12の地震が発生し...
最近、計算言語学会(ACL)は公式ウェブサイトでACL 2020の採択論文リストを発表し、合計779...
AIを主流にするために、科学者や研究者はさらなる努力を重ねてきました。 [[315507]]そのため...
AIの学習は幼稚園から始まる最近、インターネット上で「人工知能実験教科書」の写真が流通している。この...