Stability AI、GPUなしでローカルで実行できるStable Code 3Bモデルをリリース

Stability AI、GPUなしでローカルで実行できるStable Code 3Bモデルをリリース

文芸グラフィックの分野で非常に人気となっている Stability AI は、本日、2024 年向けの最初の新しい AI モデルである Stable Code 3B を発表しました。名前が示すように、Stable Code 3B は補助コード タスクに重点を置いた 30 億のパラメータ モデルです。

専用の GPU なしでラップトップ上でネイティブに実行でき、Meta の CodeLLaMA 7B などの大型モデルに匹敵するパフォーマンスを提供します。

2023 年末までに、Stability AI は、テキスト生成用の StableLM Zephyr 3B モデルなど、より小型でコンパクトで強力なモデルの開発を推進し始めました。

2024年の到来とともに、Stability AIは年初に2024年最初の大規模言語モデルであるStable Code 3Bをリリースするために休みなく取り組んできました。実際、このモデルのプレビュー版であるStable Code Alpha 3Bは、早くも昨年8月にリリースされました。それ以来、Stability AIは着実に技術を改善してきました。新しいバージョンの Stable Code 3B はコード補完用に設計されており、さまざまな追加機能が備わっています。

CodeLLaMA 7b と比較すると、Stable Code 3B はサイズが 60% 小さくなっていますが、プログラミング タスクでは同等のパフォーマンスを実現します。

Stable Code 3B は、MultiPL-E ベンチマークで SOTA パフォーマンスを実現します (同様のサイズのモデルと比較)。たとえば、Stable Code 3B は、Python、C++、JavaScript、Java、PHP、および Rust プログラミング言語で StarCoder よりも優れたパフォーマンスを発揮します。

研究

Stable Code 3BはStable LM 3Bに基づいてトレーニングされており、Stable LM 3Bトレーニングトークンの数は4兆に達します。さらに、Stable Codeはソフトウェアエンジニアリングにおける特定のデータ(コードを含む)をトレーニングに使用します。

Stable Code 3B は、より多くの機能を提供し、複数の言語で優れたパフォーマンスを発揮し、FIM (Fill in the Middle、新しいトレーニング手法) 機能のサポートやコンテキスト サイズのスケーリング機能など、その他の利点もあります。基本の安定コードは、最大 16,384 トークンのシーケンスでトレーニングされ、ロータリー埋め込みを使用した CodeLlama と同様のアプローチに従います。ロータリー埋め込みでは、オプションで最大 1,000,000 個のロータリー ベースの変更が可能になり、モデルのコンテキスト長がさらに 10 万トークンまで拡張されます。

モデル アーキテクチャの点では、Stable Code 3B モデルは、LLaMA アーキテクチャに似た純粋なデコーダー トランスフォーマーですが、次の変更が加えられています。

  • 位置埋め込み: スループットを向上させるために、回転した位置埋め込みがヘッド埋め込み次元の最初の 25% に適用されます。
  • トークナイザー: GPTNeoX Tokenizer.NeoX の修正バージョンを使用して、<FIM_PREFIX>、<FIM_SUFFIX> などの FIM 関数をトレーニングするための特別なトークンを追加します。

電車

トレーニングデータセット

Stable Code 3B のトレーニング データセットは、Falcon RefinedWeb、CommitPackFT、Github Issues、StarCoder など、HuggingFace Hub で提供されるオープン ソースの大規模データセットをフィルタリングして混合したもので構成されており、さらに数学の分野のデータが追加されています。

トレーニングインフラ

  • ハードウェア: Stable Code 3B は、Stability AI クラスター上の 256 個の NVIDIA A100 40GB GPU を使用してトレーニングされました。
  • ソフトウェア: 安定コード 3B は gpt-neox のブランチを使用し、2D 並列処理 (データとテンソルの並列処理) でのトレーニングに ZeRO-1 を使用し、flash-attention、SwiGLU、および FlashAttention-2 の回転埋め込みカーネルに依存します。

最後に、Stable Code 3B のパフォーマンスを見てみましょう。

Stable Code 3B のより詳細な技術レポートは後日公開される予定ですので、どうぞお楽しみに。

<<: 

>>:  ついに、トップNLPカンファレンスACLへの投稿は匿名である必要がなくなりました

ブログ    
ブログ    
ブログ    

推薦する

人工知能に適した9つのプログラミング言語

[[436583]] [51CTO.com クイック翻訳]人工知能という用語は、20 世紀半ばに生ま...

レポート:AI関連職の年間給与は8.9%減少し、収入は2018年より低い

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

サイズはたったの1MB!超軽量顔認識モデルがGithubで人気

最近、ユーザー Linzaer が、エッジ コンピューティング デバイス、モバイル デバイス、PC ...

...

二分木反復アルゴリズム

バイナリ ツリーの事前順序、イン順序、および事後順序のトラバーサルは、アルゴリズムとデータ構造におけ...

...

Google AI チームが新しい「流体アノテーション」を発表: 画像アノテーションの速度が 3 倍に向上

(原題: Google が新しいソリューションを発表、画像注釈の速度が 3 倍に向上) [[2505...

平昌オリンピックに向けたパイロットプロジェクトとして5Gバスとドローンがデビュー

[51CTO.com オリジナル記事] 韓国 IT ブリーフィング (3 月第 3 週)今回のKor...

教育割引 Github AI インテリジェントコーディングアシスタント Copilot は、コードに不慣れな場合の悩みを解決します

教育機関向けオファー Github AI スマートコーディングアシスタント コパイロットAIプログラ...

...

...

人工知能の知能を実現する方法

[[257748]]近年、ビジネスにおける人工知能 (AI) の重要性が急速に高まり、今では主要なテ...

2021年のAIに関する10の大胆な予測

2020年は忘れられない年です。今年に入って、新型コロナウイルスの感染拡大に伴い、人工知能(AI)が...

AlphaFold 2 の最強のライバルが自らを弱体化させます!メタ、12人チームを即刻解散

ちょうど今日、Meta 社は商用 AI に注力するため、AI を使用して約 6 億個のタンパク質の折...

韓国はLK-99の室温超伝導は証明できないと信じており、国内チームは拡張された材料が魔法のような特性を持っていると信じている

韓国でセンセーショナルな「常温超伝導」事件が最近終息したようだ。韓国超伝導低温学会の検証委員会は最近...