国産初のオープンソースMoE大型モデルが登場！パフォーマンスはLlama 2-7Bに匹敵し、計算量は60%削減されます。

オープンソースのMoEモデルがついに国内初のプレイヤーを迎えます！

そのパフォーマンスは高密度の Llama 2-7B モデルに匹敵しますが、計算量はわずか 40% です。

このモデルは、特に数学とコーディング能力の点で、Llama を圧倒する 19 面の戦士と呼べるでしょう。

これは、 DeepSeekチームによる最新のオープンソースモデルである、160 億のパラメータを持つエキスパートモデル DeepSeek MoE です。

DeepSeek MoE は、優れたパフォーマンスに加えて、コンピューティング能力の節約にも重点を置いています。

このパフォーマンス活性化パラメータグラフでは、左上隅の大きな空白領域を占める唯一のパラメータとして目立っています。

リリースからわずか 1 日後、DeepSeek チームの X に関するツイートは多くのリツイートと注目を集めました。

JPモルガンの機械学習エンジニアであるマキシム・ラボンヌ氏も、テストの結果、DeepSeek MoEのチャットバージョンは、マイクロソフトの「小型モデル」であるPhi-2よりもわずかに優れたパフォーマンスを示したと述べた。

同時に、DeepSeek MoEはGitHubで300以上のスターを獲得し、Hugging Faceテキスト生成モデルランキングリストのホームページに掲載されました。

では、DeepSeek MoE の具体的なパフォーマンスはどうでしょうか?

計算量を60%削減

現在のバージョンの DeepSeek MoE には 160 億個のパラメータがあり、実際にアクティブ化されているパラメータの数はおよそ 28 億個です。

独自の 7B 高密度モデルと比較すると、19 のデータセットでのパフォーマンスにはそれぞれ長所と短所がありますが、概ね近い値です。

同じく高密度モデルであるLlama 2-7Bと比較すると、DeepSeek MoEは数学、コードなどにおいても明らかな優位性を持っています。

ただし、両方の高密度モデルの計算複雑度は 4k トークンあたり 180 TFLOP を超えますが、DeepSeek MoE は 74.4 TFLOP しかなく、これは 2 つのモデルの 40% にすぎません。

20 億のパラメータで実行されたパフォーマンステストでは、DeepSeek MoE は、より少ない計算量で、パラメータ数が 1.5 倍の MoE モデルである GShard 2.8B と同等かそれ以上の結果を達成できることが示されています。

さらに、DeepSeekチームはSFTに基づいてDeepSeek MoEのChatバージョンも微調整し、そのパフォーマンスも独自の高密度バージョンやLlama 2-7Bに近いものになっています。

さらに、DeepSeek チームは、DeepSeek MoE モデルの 145B バージョンも開発中であることを明らかにしました。

予備段階テストでは、145B DeepSeek MoE が GShard 137B を大きく上回り、28.5% の計算労力で DeepSeek 67B モデルの高密度バージョンに匹敵するパフォーマンスを達成できることが示されました。

研究開発が完了したら、チームはバージョン 145B もオープンソース化する予定です。

これらのモデルのパフォーマンスの背後には、DeepSeek が独自に開発した新しい MoE アーキテクチャがあります。

自社開発の新MoEアーキテクチャ

まず、従来の MoE アーキテクチャと比較して、DeepSeek はより細かい粒度のエキスパート分割を備えています。

パラメータの総数が一定の場合、従来のモデルでは N 人の専門家を識別できますが、DeepSeek では 2N 人の専門家を識別できます。

同時に、タスクが実行されるたびに選択されるエキスパートの数は従来のモデルの 2 倍になるため、使用されるパラメータの総数は変わりませんが、選択の自由度が高まります。

このセグメンテーション戦略により、アクティベーションエキスパートのより柔軟で適応性の高い組み合わせが可能になり、さまざまなタスクにおけるモデルの精度と知識獲得のターゲット性が向上します。

エキスパート区分の違いに加えて、DeepSeek では「共有エキスパート」設定も革新的に導入しました。

これらの共有エキスパートは、ルーティングモジュールの影響を受けずにすべての入力トークンをアクティブ化し、さまざまなコンテキストで必要な共通知識をキャプチャして統合することを目的としています。

この共有知識を共有エキスパートに圧縮することで、他のエキスパート間のパラメータの冗長性が削減され、モデルのパラメータ効率が向上します。

共有エキスパートの設定により、他のエキスパートが独自の知識領域にさらに集中できるようになり、エキスパートの専門性の全体的なレベルが向上します。

アブレーション実験の結果は、両方のソリューションがコストの削減と DeepSeek MoE の効率向上に重要な役割を果たすことを示しています。

論文アドレス: https://arxiv.org/abs/2401.06066.

参考リンク: https://mp.weixin.qq.com/s/T9-EGxYuHcGQgXArLXGbgg.

<<:

>>: IBMのレポートは、ショッピングにおけるAIへの消費者の関心を強調している

国産初のオープンソースMoE大型モデルが登場！パフォーマンスはLlama 2-7Bに匹敵し、計算量は60%削減されます。

計算量を60%削減

自社開発の新MoEアーキテクチャ

Java プログラミングスキル - データ構造とアルゴリズムの「スタック」

各自動車会社の「地図なし」インテリジェント運転ソリューションについてお話ししましょう

機械翻訳の3つのコア技術原則 | AI知識の普及

工業情報化部：5G、人工知能などの技術を活用し、中小企業の業務・生産再開を支援

人工知能は医療をよりスマートにできるでしょうか?

HKUST & MSRA リサーチ: 画像から画像への変換に必要なのは微調整だけ

IoTミツバチ：私たちの未来を救う技術

スーパーアプリの3つの成功例

AIの諸刃の剣：質問を検索するために写真を撮ることと不正行為を支援すること

2019年にAI分野で何が起こったのでしょうか?

推薦する

AIは主人の命令に従わず、主人を笑いさえしました！意識が目覚めた？

AI 初心者必読 | パラメーターとハイパーパラメーターの違いがまだよくわかりませんか?

VB.NET バブルソートアルゴリズムの詳細な説明

人工知能クロニクル | これら 10 大イベントは、人工知能の 64 年間の発展を記録しています

Appleは以前から独自のChatGPT AIツールを開発してきた。

スタンフォード大学は4年連続でAIレポートを発表しています。今年はどんな内容が取り上げられたのでしょうか？

人工知能は人類の終焉をもたらすのでしょうか？ AIに対する5つの実存的脅威

テスラですら理解できない、車両と道路の連携が自動運転の究極のソリューションなのか？

AIが初めて量子レベルで物質を記述！自然：化学分野で最も価値のある技術の一つ

現代の分散ストレージシステムをサポートするアルゴリズム

AI+IoT: インテリジェント IoT (インダストリー 4.0 を含む) の需要が高い 5 つの業界

Yisaqi 9周年: RPA製品の進化を振り返る