国産初のオープンソースMoE大型モデルが登場!パフォーマンスはLlama 2-7Bに匹敵し、計算量は60%削減されます。

国産初のオープンソースMoE大型モデルが登場!パフォーマンスはLlama 2-7Bに匹敵し、計算量は60%削減されます。

オープンソースのMoEモデルがついに国内初のプレイヤーを迎えます!

そのパフォーマンスは高密度の Llama 2-7B モデルに匹敵しますが、計算量はわずか 40% です。

このモデルは、特に数学とコーディング能力の点で、Llama を圧倒する 19 面の戦士と呼べるでしょう。

これは、 DeepSeekチームによる最新のオープンソース モデルである、160 億のパラメータを持つエキスパート モデル DeepSeek MoE です。

DeepSeek MoE は、優れたパフォーマンスに加えて、コンピューティング能力の節約にも重点を置いています。

このパフォーマンス活性化パラメータ グラフでは、左上隅の大きな空白領域を占める唯一のパラメータとして目立っています。

リリースからわずか 1 日後、DeepSeek チームの X に関するツイートは多くのリツイートと注目を集めました。

JPモルガンの機械学習エンジニアであるマキシム・ラボンヌ氏も、テストの結果、DeepSeek MoEのチャットバージョンは、マイクロソフトの「小型モデル」であるPhi-2よりもわずかに優れたパフォーマンスを示したと述べた。

同時に、DeepSeek MoEはGitHubで300以上のスターを獲得し、Hugging Faceテキスト生成モデルランキングリストのホームページに掲載されました。

では、DeepSeek MoE の具体的なパフォーマンスはどうでしょうか?

計算量を60%削減

現在のバージョンの DeepSeek MoE には 160 億個のパラメータがあり、実際にアクティブ化されているパラメータの数はおよそ 28 億個です。

独自の 7B 高密度モデルと比較すると、19 のデータ セットでのパフォーマンスにはそれぞれ長所と短所がありますが、概ね近い値です。

同じく高密度モデルであるLlama 2-7Bと比較すると、DeepSeek MoEは数学、コードなどにおいても明らかな優位性を持っています。

ただし、両方の高密度モデルの計算複雑度は 4k トークンあたり 180 TFLOP を超えますが、DeepSeek MoE は 74.4 TFLOP しかなく、これは 2 つのモデルの 40% にすぎません。

20 億のパラメータで実行されたパフォーマンス テストでは、DeepSeek MoE は、より少ない計算量で、パラメータ数が 1.5 倍の MoE モデルである GShard 2.8B と同等かそれ以上の結果を達成できることが示されています。

さらに、DeepSeekチームはSFTに基づいてDeepSeek MoEのChatバージョンも微調整し、そのパフォーマンスも独自の高密度バージョンやLlama 2-7Bに近いものになっています。

さらに、DeepSeek チームは、DeepSeek MoE モデルの 145B バージョンも開発中であることを明らかにしました。

予備段階テストでは、145B DeepSeek MoE が GShard 137B を大きく上回り、28.5% の計算労力で DeepSeek 67B モデルの高密度バージョンに匹敵するパフォーマンスを達成できることが示されました。

研究開発が完了したら、チームはバージョン 145B もオープンソース化する予定です。

これらのモデルのパフォーマンスの背後には、DeepSeek が独自に開発した新しい MoE アーキテクチャがあります。

自社開発の新MoEアーキテクチャ

まず、従来の MoE アーキテクチャと比較して、DeepSeek はより細かい粒度のエキスパート分割を備えています。

パラメータの総数が一定の場合、従来のモデルでは N 人の専門家を識別できますが、DeepSeek では 2N 人の専門家を識別できます。

同時に、タスクが実行されるたびに選択されるエキスパートの数は従来のモデルの 2 倍になるため、使用されるパラメータの総数は変わりませんが、選択の自由度が高まります。

このセグメンテーション戦略により、アクティベーション エキスパートのより柔軟で適応性の高い組み合わせが可能になり、さまざまなタスクにおけるモデルの精度と知識獲得のターゲット性が向上します。

エキスパート区分の違いに加えて、DeepSeek では「共有エキスパート」設定も革新的に導入しました。

これらの共有エキスパートは、ルーティング モジュールの影響を受けずにすべての入力トークンをアクティブ化し、さまざまなコンテキストで必要な共通知識をキャプチャして統合することを目的としています。

この共有知識を共有エキスパートに圧縮することで、他のエキスパート間のパラメータの冗長性が削減され、モデルのパラメータ効率が向上します。

共有エキスパートの設定により、他のエキスパートが独自の知識領域にさらに集中できるようになり、エキスパートの専門性の全体的なレベルが向上します。

アブレーション実験の結果は、両方のソリューションがコストの削減と DeepSeek MoE の効率向上に重要な役割を果たすことを示しています。

論文アドレス: https://arxiv.org/abs/2401.06066.

参考リンク: https://mp.weixin.qq.com/s/T9-EGxYuHcGQgXArLXGbgg.

<<: 

>>:  IBMのレポートは、ショッピングにおけるAIへの消費者の関心を強調している

推薦する

並列コンピューティングの量子化モデルとディープラーニングエンジンへの応用

この世で唯一負けない武術はスピードだ。ディープラーニング モデルをより速くトレーニングする方法は、常...

...

Google に行ったが、ディープラーニングはできなかった。Facebook の Tian Yuandong が人生の課題と選択について語る

初めての15分間のスピーチの準備に2か月を要し、卒業後すぐにGoogleに入社したものの歯車の一部に...

Pythonディープラーニングフレームワークの比較の詳細な分析

PyTorch から Mxnet まで、これらの Python ディープラーニング フレームワークを...

AWS クラウド機械学習を使用したサーバーレスニュースデータパイプラインの構築

[[436699]] [51CTO.com クイック翻訳]アナリストとして、私はニュースや業界の最新...

フェデレーテッドラーニングも安全ではないのでしょうか? Nvidiaの研究は「プライバシーフリー」データを使用して元の画像を直接再構築します

フェデレーテッド ラーニングは、データがローカルの場所から出ないようにするプライバシー保護戦略により...

AIと自動化がプロセスマイニングを改善する6つの方法

企業のデジタル ツインを作成し、ロボティック プロセス オートメーション (RPA) などの自動化テ...

機械学習におけるよくある間違い

序文エンジニアリングでは、キーバリューストアを構築する方法が複数あり、それぞれの設計では使用パターン...

ChatGPTは、すべての過去のチャットの学習、記憶のリセット、および「読んだ後の書き込み」という新機能をテストするために公開されました。

ChatGPT は、大きな新機能をリリースしようとしている可能性があります。つまり、過去のチャット...

...

...

AI as a Serviceが不可欠な理由

これまでの SaaS と同様に、AIaaS は、独自の AI ベースのシステムの開発に時間と費用をか...

...

...

ロボット宅配便があなたの玄関までお届けします!フォードが「無人配送」の最後のハードルを解決

Google と Amazon が競い合っている無人配達市場を覚えていますか? そこに新たなプレーヤ...