Stability AI、GPUなしでローカルで実行できるStable Code 3Bモデルをリリース

Stability AI、GPUなしでローカルで実行できるStable Code 3Bモデルをリリース

文芸グラフィックの分野で非常に人気となっている Stability AI は、本日、2024 年向けの最初の新しい AI モデルである Stable Code 3B を発表しました。名前が示すように、Stable Code 3B は補助コード タスクに重点を置いた 30 億のパラメータ モデルです。

専用の GPU なしでラップトップ上でネイティブに実行でき、Meta の CodeLLaMA 7B などの大型モデルに匹敵するパフォーマンスを提供します。

2023 年末までに、Stability AI は、テキスト生成用の StableLM Zephyr 3B モデルなど、より小型でコンパクトで強力なモデルの開発を推進し始めました。

2024年の到来とともに、Stability AIは年初に2024年最初の大規模言語モデルであるStable Code 3Bをリリースするために休みなく取り組んできました。実際、このモデルのプレビュー版であるStable Code Alpha 3Bは、早くも昨年8月にリリースされました。それ以来、Stability AIは着実に技術を改善してきました。新しいバージョンの Stable Code 3B はコード補完用に設計されており、さまざまな追加機能が備わっています。

CodeLLaMA 7b と比較すると、Stable Code 3B はサイズが 60% 小さくなっていますが、プログラミング タスクでは同等のパフォーマンスを実現します。

Stable Code 3B は、MultiPL-E ベンチマークで SOTA パフォーマンスを実現します (同様のサイズのモデルと比較)。たとえば、Stable Code 3B は、Python、C++、JavaScript、Java、PHP、および Rust プログラミング言語で StarCoder よりも優れたパフォーマンスを発揮します。

研究

Stable Code 3BはStable LM 3Bに基づいてトレーニングされており、Stable LM 3Bトレーニングトークンの数は4兆に達します。さらに、Stable Codeはソフトウェアエンジニアリングにおける特定のデータ(コードを含む)をトレーニングに使用します。

Stable Code 3B は、より多くの機能を提供し、複数の言語で優れたパフォーマンスを発揮し、FIM (Fill in the Middle、新しいトレーニング手法) 機能のサポートやコンテキスト サイズのスケーリング機能など、その他の利点もあります。基本の安定コードは、最大 16,384 トークンのシーケンスでトレーニングされ、ロータリー埋め込みを使用した CodeLlama と同様のアプローチに従います。ロータリー埋め込みでは、オプションで最大 1,000,000 個のロータリー ベースの変更が可能になり、モデルのコンテキスト長がさらに 10 万トークンまで拡張されます。

モデル アーキテクチャの点では、Stable Code 3B モデルは、LLaMA アーキテクチャに似た純粋なデコーダー トランスフォーマーですが、次の変更が加えられています。

  • 位置埋め込み: スループットを向上させるために、回転した位置埋め込みがヘッド埋め込み次元の最初の 25% に適用されます。
  • トークナイザー: GPTNeoX Tokenizer.NeoX の修正バージョンを使用して、<FIM_PREFIX>、<FIM_SUFFIX> などの FIM 関数をトレーニングするための特別なトークンを追加します。

電車

トレーニングデータセット

Stable Code 3B のトレーニング データセットは、Falcon RefinedWeb、CommitPackFT、Github Issues、StarCoder など、HuggingFace Hub で提供されるオープン ソースの大規模データセットをフィルタリングして混合したもので構成されており、さらに数学の分野のデータが追加されています。

トレーニングインフラ

  • ハードウェア: Stable Code 3B は、Stability AI クラスター上の 256 個の NVIDIA A100 40GB GPU を使用してトレーニングされました。
  • ソフトウェア: 安定コード 3B は gpt-neox のブランチを使用し、2D 並列処理 (データとテンソルの並列処理) でのトレーニングに ZeRO-1 を使用し、flash-attention、SwiGLU、および FlashAttention-2 の回転埋め込みカーネルに依存します。

最後に、Stable Code 3B のパフォーマンスを見てみましょう。

Stable Code 3B のより詳細な技術レポートは後日公開される予定ですので、どうぞお楽しみに。

<<: 

>>:  ついに、トップNLPカンファレンスACLへの投稿は匿名である必要がなくなりました

推薦する

Apple、たった1文で写真をレタッチできる新AIモデルMGIEを披露

2月8日、マイクロソフトの急速な発展と比較すると、AppleのAI分野における展開ははるかに控えめで...

UiPath Carnivalは職場の自動化におけるイノベーションを探るために近日開催されます

ロボティック・プロセス・オートメーション(RPA)エンタープライズソフトウェア企業のUiPathは最...

適切な AI データ ストレージを選択するための 6 つのガイドライン

間違った AI ストレージ プラットフォームを選択すると、ビジネスに深刻な結果をもたらす可能性があり...

人工知能がいかに「知的」であっても、それは人類の奇跡である

テレビ番組「ザ・ブレイン」が巻き起こした「人間対機械」、そして自動運転車、顔認識、アルファ囲碁など一...

テクノロジー | 12人の専門家が2021年の人工知能の発展動向について語る

2020年が終わり、2021年が始まりました!私たちは最近、人工知能の専門家たちにインタビューし、2...

2020年のサイバーセキュリティの転換点: 人工知能

先日終了したRSAC2020カンファレンスのテーマは「ヒューマンファクター」でした。業界では、この重...

Facebook は、自社の成功の要因となったアルゴリズムをどうやって修正できるのでしょうか?

[[428596]]専門家はCNNに対し、フェイスブックのアルゴリズムは改善できる可能性があると語...

...

AIとIoTが建設業界に価値をもたらす方法

モノのインターネット (IoT) センサーは主に運用スタックの可視性を提供し、リアルタイムで正確な運...

AIのために知っておくべき10のディープラーニング手法

[[211929]] AIであろうと他の分野であろうと、学習と研究の過程で、その分野の歴史を常に振り...

投資家心理は安定しており、人工知能への資金流入は続いている

[[274634]] 2019 年の秋が近づき、最初の 2 四半期が終了しようとしている今、今年前半...

出勤初日、AIバーチャル天気予報キャスターがレポートを担当。冬季オリンピックの裏側にあるAIブラックテクノロジーを振り返る

表紙ニュース記者 孟美 張悦希休日明けの初日、北京冬季オリンピックも競技3日目に入った。スタジアム内...

...

プログラマーの視点から Java でニューラル ネットワークを設計する

人工ニューラル ネットワーク (ANN) またはコネクショニスト システムは、生物学的脳を構成する生...