国産初のオープンソースMoE大型モデルが登場!パフォーマンスはLlama 2-7Bに匹敵し、計算量は60%削減されます。

国産初のオープンソースMoE大型モデルが登場!パフォーマンスはLlama 2-7Bに匹敵し、計算量は60%削減されます。

オープンソースのMoEモデルがついに国内初のプレイヤーを迎えます!

そのパフォーマンスは高密度の Llama 2-7B モデルに匹敵しますが、計算量はわずか 40% です。

このモデルは、特に数学とコーディング能力の点で、Llama を圧倒する 19 面の戦士と呼べるでしょう。

これは、 DeepSeekチームによる最新のオープンソース モデルである、160 億のパラメータを持つエキスパート モデル DeepSeek MoE です。

DeepSeek MoE は、優れたパフォーマンスに加えて、コンピューティング能力の節約にも重点を置いています。

このパフォーマンス活性化パラメータ グラフでは、左上隅の大きな空白領域を占める唯一のパラメータとして目立っています。

リリースからわずか 1 日後、DeepSeek チームの X に関するツイートは多くのリツイートと注目を集めました。

JPモルガンの機械学習エンジニアであるマキシム・ラボンヌ氏も、テストの結果、DeepSeek MoEのチャットバージョンは、マイクロソフトの「小型モデル」であるPhi-2よりもわずかに優れたパフォーマンスを示したと述べた。

同時に、DeepSeek MoEはGitHubで300以上のスターを獲得し、Hugging Faceテキスト生成モデルランキングリストのホームページに掲載されました。

では、DeepSeek MoE の具体的なパフォーマンスはどうでしょうか?

計算量を60%削減

現在のバージョンの DeepSeek MoE には 160 億個のパラメータがあり、実際にアクティブ化されているパラメータの数はおよそ 28 億個です。

独自の 7B 高密度モデルと比較すると、19 のデータ セットでのパフォーマンスにはそれぞれ長所と短所がありますが、概ね近い値です。

同じく高密度モデルであるLlama 2-7Bと比較すると、DeepSeek MoEは数学、コードなどにおいても明らかな優位性を持っています。

ただし、両方の高密度モデルの計算複雑度は 4k トークンあたり 180 TFLOP を超えますが、DeepSeek MoE は 74.4 TFLOP しかなく、これは 2 つのモデルの 40% にすぎません。

20 億のパラメータで実行されたパフォーマンス テストでは、DeepSeek MoE は、より少ない計算量で、パラメータ数が 1.5 倍の MoE モデルである GShard 2.8B と同等かそれ以上の結果を達成できることが示されています。

さらに、DeepSeekチームはSFTに基づいてDeepSeek MoEのChatバージョンも微調整し、そのパフォーマンスも独自の高密度バージョンやLlama 2-7Bに近いものになっています。

さらに、DeepSeek チームは、DeepSeek MoE モデルの 145B バージョンも開発中であることを明らかにしました。

予備段階テストでは、145B DeepSeek MoE が GShard 137B を大きく上回り、28.5% の計算労力で DeepSeek 67B モデルの高密度バージョンに匹敵するパフォーマンスを達成できることが示されました。

研究開発が完了したら、チームはバージョン 145B もオープンソース化する予定です。

これらのモデルのパフォーマンスの背後には、DeepSeek が独自に開発した新しい MoE アーキテクチャがあります。

自社開発の新MoEアーキテクチャ

まず、従来の MoE アーキテクチャと比較して、DeepSeek はより細かい粒度のエキスパート分割を備えています。

パラメータの総数が一定の場合、従来のモデルでは N 人の専門家を識別できますが、DeepSeek では 2N 人の専門家を識別できます。

同時に、タスクが実行されるたびに選択されるエキスパートの数は従来のモデルの 2 倍になるため、使用されるパラメータの総数は変わりませんが、選択の自由度が高まります。

このセグメンテーション戦略により、アクティベーション エキスパートのより柔軟で適応性の高い組み合わせが可能になり、さまざまなタスクにおけるモデルの精度と知識獲得のターゲット性が向上します。

エキスパート区分の違いに加えて、DeepSeek では「共有エキスパート」設定も革新的に導入しました。

これらの共有エキスパートは、ルーティング モジュールの影響を受けずにすべての入力トークンをアクティブ化し、さまざまなコンテキストで必要な共通知識をキャプチャして統合することを目的としています。

この共有知識を共有エキスパートに圧縮することで、他のエキスパート間のパラメータの冗長性が削減され、モデルのパラメータ効率が向上します。

共有エキスパートの設定により、他のエキスパートが独自の知識領域にさらに集中できるようになり、エキスパートの専門性の全体的なレベルが向上します。

アブレーション実験の結果は、両方のソリューションがコストの削減と DeepSeek MoE の効率向上に重要な役割を果たすことを示しています。

論文アドレス: https://arxiv.org/abs/2401.06066.

参考リンク: https://mp.weixin.qq.com/s/T9-EGxYuHcGQgXArLXGbgg.

<<: 

>>:  IBMのレポートは、ショッピングにおけるAIへの消費者の関心を強調している

推薦する

AIは主人の命令に従わず、主人を笑いさえしました!意識が目覚めた?

人工知能は現在注目されている研究テーマであるため、各国は他国を追い越して主導権を握り、国際社会におけ...

...

AI 初心者必読 | パラメーターとハイパーパラメーターの違いがまだよくわかりませんか?

[[244078]]コンピュータサイエンスには多くの用語があり、それらの多くは一貫して使用されてい...

VB.NET バブルソートアルゴリズムの詳細な説明

VB.NET を学習する場合、中国語の情報が非常に少なく、大多数のプログラマーのニーズを満たすのが難...

人工知能クロニクル | これら 10 大イベントは、人工知能の 64 年間の発展を記録しています

1956 年の夏、アメリカの小さな町ハノーバーの静かなダートマス大学に、ジョン・マッカーシー (Li...

Appleは以前から独自のChatGPT AIツールを開発してきた。

何年もの間、自社のソフトウェアとデバイスすべてに機械学習を統合してきたAppleは、WWDCでは自社...

スタンフォード大学は4年連続でAIレポートを発表しています。今年はどんな内容が取り上げられたのでしょうか?

2021年スタンフォードAIインデックスレポートが正式にリリースされ、過去1年間のAIの全体的な発...

人工知能は人類の終焉をもたらすのでしょうか? AIに対する5つの実存的脅威

私たちは現在、この地球上で最も知的な種であり、他のすべての生命は生き続けるために私たちの善意に依存し...

...

テスラですら理解できない、車両と道路の連携が自動運転の究極のソリューションなのか?

[[434381]]最初は1兆円、次に1.2兆円と、テスラの時価総額は新たな高値を更新し続けました...

AIが初めて量子レベルで物質を記述!自然:化学分野で最も価値のある技術の一つ

[[440047]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

...

現代の分散ストレージシステムをサポートするアルゴリズム

アプリケーションによって処理されるデータの量が増え続けるにつれて、ストレージの拡張はますます困難にな...

AI+IoT: インテリジェント IoT (インダストリー 4.0 を含む) の需要が高い 5 つの業界

未来のスマートワールドでは、あらゆるものがモノのインターネットでつながり、あらゆるものがインテリジェ...

Yisaqi 9周年: RPA製品の進化を振り返る

現在、国内RPA市場の競争は激化しており、多くのメーカーが独自のRPA製品やブランドを立ち上げていま...