Stability AI が新しいコード モデル Stable Code 3B をリリースしました。 70億のCode Llamaに匹敵し、GPUなしでも実行可能

Stability AI が新しいコード モデル Stable Code 3B をリリースしました。 70億のCode Llamaに匹敵し、GPUなしでも実行可能

本日、Stability AI は 2024 年向けの最初のモデルである Stable Code 3B をリリースしました。

写真

名前の通り、Stable Code 3B はコーディング機能に重点を置いており、実際のパフォーマンスも非常に優れています。

3B パラメータのみで、Code Llama 7B と同じ効果が得られます。

写真

Code Llama 7B と比較すると、Stable Code 3B は 60% 小さくなっていますが、複数のプログラミング言語で同等のレベルを維持し、Python と C++ のコード補完では Code Llama 7B を上回っています。

さらに、モデルのサイズはわずか 3B なので、専用の GPU がなくても、Stable Code 3B は MacBook Air などの一般的なラップトップでリアルタイムに実行できます。

一部のネットユーザーは、Stable Code 3B を Copilot のオフライン代替品と呼び、VS Code で使用したいと考えています。

写真

4時間後、ネットユーザーがVS CodeのLLama Coderプラグインを更新して最新のStable Code 3Bモデルをサポートするようになったとツイートした。

写真

「本当に素晴らしいです!小さいので、どんなハードウェアでも実行でき、非常に高速に動作します。」

写真

プラグインアドレス: https://t.co/Mn7onaDpge

このモデルは名目上は Stable Code 3B と呼ばれていますが、実際には 27 億個のパラメータを持つ純粋なデコーダー言語モデルです。

Stable Code 3B は軽量モデルであるだけでなく、最大 100K のコンテキスト サイズもサポートしており、より便利かつ正確なエンコードに役立ちます。

また、このモデルは2023年のStackOverflow開発者調査で最も人気のプログラミング言語18言語を参考にしており、同規模のモデルの中で最高のパフォーマンスを発揮できるよう、これら18言語向けにトレーニングされているとのこと。

  • カナダ
  • ジャワ
  • JavaScript
  • CS
  • 行く
  • html
  • ルビー
  • さび
  • マークダウン
  • シェル
  • phpファイル
  • SQL
  • R
  • タイプスクリプト
  • パイソン
  • Jupyter クリーン
  • 再構成されたテキスト

同レベルの競合モデルと比較すると、Stable Code 3B もほぼ最高の結果を達成しました。

写真

現在、Stable Code 3B は Stability AI のメンバーシップ パッケージに含まれています。商用目的で使用しない限り、ユーザーは無料で使用できます。

写真

安定コード 3B

Stability AI は、テキスト生成用の StableLM Zephyr 3B などのモデルを含む、より小型ながら強力なモデルのリリースを 2023 年末から開始する予定です。

Stable Code 3B の前身は、Stability AI が 8 月にリリースした Stable Code Alpha 3B です。

Stable Code Alpha 3B は、BigCode Stack データセット (v1.2) を使用して基本モデルをトレーニングし、さらに Python、Go、Java、Javascript、C、Markdown、C++ などの一般的な言語でトレーニングします (合計 560B のコード トークン)。

ベースモデルを構築した後、開発者は特定のユースケースに合わせて命令モデルを調整し、Alpaca 形式の約 120,000 個のコード命令/応答を使用してモデルをトレーニングし、複雑なプログラミング タスクを解決する能力を向上させました。

写真

上の図は、Stable Code Alpha が Pytorch ライブラリを使用して比較的複雑な Python ファイルを完成させていることを示しています。灰色の部分は Stable Code の予測です。

パラメータの詳細: 100K コンテキスト、FIM をサポート

安定コード 3B は、256 個の NVIDIA A100 40GB GPU (AWS P4d インスタンス) のクラスターでトレーニングされました。

ZeRO-1 のデータ並列処理とテンソル並列処理を使用し、FlashAttention と FlashAttention-2 の SwiGLU および Rotary Embedding カーネルに依存します。

モデルのトレーニング プロセスは、Code Llama に似た複数段階のプロセスで構成されます。

最初のステップでは、自然言語データ(4兆トークンでトレーニング済み)で事前トレーニングされたStableLM-3B-4e1tが、CommitPack、GitHub Issues、StarCoder、その他の数学データセットを含む複数のコードおよびコード関連データセットで教師なし微調整されます。

写真

モデルは上記のデータセットで bfloat16 精度で事前トレーニングされ、AdamW で最適化されました。

2 番目のステップでは、16,384 トークンのより長いシーケンスを使用してモデルがさらに微調整され、Code Llama と同様に、最適化のために Rotated Position Embedding (RoPE) と呼ばれる手法を使用してコンテキスト サイズが 100k トークンに拡張されます。

さらに、新しい Stable Code 3B モデルは Flash Attention 2 もサポートします。

写真

改良版である Stable Code 3B は、新しいコード行を提案できるだけでなく、中間充填機能 (FIM) と呼ばれる、既存のコード内の欠落している大きなセクションを充填することもできます。

写真

Stable Code 3B のモデル アーキテクチャを次の表に示します。

写真

モデルのスループットを向上させるために、回転位置埋め込みがヘッド埋め込みの最初の 25% に適用されます。

GPTNeoX Tokenizer の修正版である NeoX を使用して、<FIM_PREFIX>、<FIM_SUFFIX> などの特別なトークンを追加し、中間充填関数をトレーニングします。

Stable Code 3B は、BigCode の評価ツールを使用してテストされた複数のプログラミング言語にわたって、MultiPL-E メトリックで最先端のパフォーマンスを実証します。

写真

上記の表では、Stable Code 3B を同じサイズのコーディング モデルと比較しており、6 つのプログラミング言語すべての中でトップに立っています。

2倍以上の大きさのコードラマ7Bと比較して、安定したコード3Bも3勝を挙げました。

スタビリティ社は、より詳しい情報とアブレーション実験を記載した完全な技術報告書を発表する予定だと述べた。

コード生成をめぐる戦い

現在、AI コード生成ツールの市場競争は非常に激しく、70 億のパラメータを備えた Meta の Code Llama 7B が多くの開発者に使用されています。

30 億パラメータレベルでは、StarCoder LLM (IBM、HuggingFace、ServiceNow によって開発されたオープンソース プロジェクト) が非常に人気があります。

テスト結果から判断すると、Stability AI モデルは StarCoder よりも優れています。Stable Code 3B が Stability と市場にどのような変化をもたらすのか興味があります。

参考文献:

https://stability.ai/news/stable-code-2024-llm-code-completion-release

https://huggingface.co/stabilityai/stable-code-3b

<<:  200億の「Shusheng·Puyu 2.0」が正式にオープンソース化されました!データプッシュのパフォーマンスはChatGPTに匹敵し、20万の超長コンテキストを完璧に再現します。

>>:  Google がバトルロワイヤルで 3 万人の従業員を解雇、数百人の従業員が AI によって排除される! IMF議長は、世界の雇用の40%が影響を受け、プログラマーの5分の1が困難に直面していると主張

ブログ    
ブログ    
ブログ    

推薦する

いつ仕事を辞めるかを予測できる 9 つの AI 活用例

[51CTO.com 速訳] 人工知能は今や脂身の多い肉となり、誰もがそれを利用し、人工知能の真髄を...

インテリジェントな世界は加速していますが、真の人工知能 (AI) から私たちはどれくらい離れているのでしょうか?

人工知能は新しい概念でもなければ、単なる仕掛けでもありません。何十年も前から提案されてきました。真の...

美団のドローンの暴露:インターネットはインターネットに別れを告げる

美団ドローンは、ドローンそのもの以上のものを見せてくれるだけでなく、インターネットがインターネットに...

テスト効率が2倍になりました!第2回NCTS中国クラウドテストサミットがAIテストの新たなパラダイムを切り開く

テスト効率が2倍になりました!第2回NCTS中国クラウドテストサミットがAIテストの新たなパラダイム...

4Kウィンドウの長さで長いテキストを読むことができ、陳丹奇の弟子がMetaと提携して、大規模なモデルでメモリを強化する新しい方法を立ち上げました

ウィンドウの長さが 4k でも、大きなモデルで大きなテキストを読み取ることができます。プリンストン大...

フィンテックの台頭:アルゴリズムが決済業界をどう変えるかデータセットの分析は最初のステップに過ぎない

[[224951]]つい最近まで、CEO や大手銀行は、顧客にサービスを提供する上で銀行の所在地は考...

...

人工知能がITおよびAV業界にもたらす変化

【51CTO.com クイック翻訳】 [[425066]] ITおよびAV業界における人工知能IT(...

...

Python でシンプルなニューラル ネットワークを作成する方法 (コード付き)

[[251984]]ニューラル ネットワークの仕組みを理解する最良の方法は、自分でニューラル ネッ...

MetaはオープンソースのAIツールAudioCraftをリリースしました。これにより、ユーザーはテキストプロンプトを通じて音楽やオーディオを作成できます。

8月3日(東部時間8月2日)、Metaは、ユーザーがテキストプロンプトを通じて音楽やオーディオを作...

スイスのCERTがボットネットのドメイン名生成アルゴリズムを解読し、多数のトップレベルドメインをブロック

スイス政府コンピュータ緊急対応センター(GovCERT)は、ボットネットTofseeが通信に使用して...

人工知能によって仕事が置き換えられた後、一般の人々は何をすべきでしょうか?

The Paperによると、世界経済フォーラムの報告書では、2025年までに8000万の仕事が機械...

AIが新たな芸術を披露、700万人のネットユーザーがオンラインで視聴、ControlNetが新たな貢献

AIは非常に新しい芸術を演じています。 「とんでもないと合理的な境界線を繰り返しテストする」一連の写...

IT ワーカーの皆さん、AI が再びあなたの仕事を奪いに来ます。今度はデータセンターから

人工知能に関する議論は現在、自動運転車、チャットボット、デジタルツイン、ロボット工学、そしてビッグデ...