文芸グラフィックの分野で非常に人気となっている Stability AI は、本日、2024 年向けの最初の新しい AI モデルである Stable Code 3B を発表しました。名前が示すように、Stable Code 3B は補助コード タスクに重点を置いた 30 億のパラメータ モデルです。 専用の GPU なしでラップトップ上でネイティブに実行でき、Meta の CodeLLaMA 7B などの大型モデルに匹敵するパフォーマンスを提供します。 2023 年末までに、Stability AI は、テキスト生成用の StableLM Zephyr 3B モデルなど、より小型でコンパクトで強力なモデルの開発を推進し始めました。 2024年の到来とともに、Stability AIは年初に2024年最初の大規模言語モデルであるStable Code 3Bをリリースするために休みなく取り組んできました。実際、このモデルのプレビュー版であるStable Code Alpha 3Bは、早くも昨年8月にリリースされました。それ以来、Stability AIは着実に技術を改善してきました。新しいバージョンの Stable Code 3B はコード補完用に設計されており、さまざまな追加機能が備わっています。 CodeLLaMA 7b と比較すると、Stable Code 3B はサイズが 60% 小さくなっていますが、プログラミング タスクでは同等のパフォーマンスを実現します。 Stable Code 3B は、MultiPL-E ベンチマークで SOTA パフォーマンスを実現します (同様のサイズのモデルと比較)。たとえば、Stable Code 3B は、Python、C++、JavaScript、Java、PHP、および Rust プログラミング言語で StarCoder よりも優れたパフォーマンスを発揮します。 研究Stable Code 3BはStable LM 3Bに基づいてトレーニングされており、Stable LM 3Bトレーニングトークンの数は4兆に達します。さらに、Stable Codeはソフトウェアエンジニアリングにおける特定のデータ(コードを含む)をトレーニングに使用します。 Stable Code 3B は、より多くの機能を提供し、複数の言語で優れたパフォーマンスを発揮し、FIM (Fill in the Middle、新しいトレーニング手法) 機能のサポートやコンテキスト サイズのスケーリング機能など、その他の利点もあります。基本の安定コードは、最大 16,384 トークンのシーケンスでトレーニングされ、ロータリー埋め込みを使用した CodeLlama と同様のアプローチに従います。ロータリー埋め込みでは、オプションで最大 1,000,000 個のロータリー ベースの変更が可能になり、モデルのコンテキスト長がさらに 10 万トークンまで拡張されます。 モデル アーキテクチャの点では、Stable Code 3B モデルは、LLaMA アーキテクチャに似た純粋なデコーダー トランスフォーマーですが、次の変更が加えられています。
電車トレーニングデータセット Stable Code 3B のトレーニング データセットは、Falcon RefinedWeb、CommitPackFT、Github Issues、StarCoder など、HuggingFace Hub で提供されるオープン ソースの大規模データセットをフィルタリングして混合したもので構成されており、さらに数学の分野のデータが追加されています。 トレーニングインフラ
最後に、Stable Code 3B のパフォーマンスを見てみましょう。 Stable Code 3B のより詳細な技術レポートは後日公開される予定ですので、どうぞお楽しみに。 |
>>: ついに、トップNLPカンファレンスACLへの投稿は匿名である必要がなくなりました
2月8日、マイクロソフトの急速な発展と比較すると、AppleのAI分野における展開ははるかに控えめで...
ロボティック・プロセス・オートメーション(RPA)エンタープライズソフトウェア企業のUiPathは最...
間違った AI ストレージ プラットフォームを選択すると、ビジネスに深刻な結果をもたらす可能性があり...
テレビ番組「ザ・ブレイン」が巻き起こした「人間対機械」、そして自動運転車、顔認識、アルファ囲碁など一...
2020年が終わり、2021年が始まりました!私たちは最近、人工知能の専門家たちにインタビューし、2...
先日終了したRSAC2020カンファレンスのテーマは「ヒューマンファクター」でした。業界では、この重...
[[428596]]専門家はCNNに対し、フェイスブックのアルゴリズムは改善できる可能性があると語...
モノのインターネット (IoT) センサーは主に運用スタックの可視性を提供し、リアルタイムで正確な運...
[[394413]]著者: 李 鴻燕IBM Greater China テクノロジー部門、データ、人...
[[211929]] AIであろうと他の分野であろうと、学習と研究の過程で、その分野の歴史を常に振り...
[[274634]] 2019 年の秋が近づき、最初の 2 四半期が終了しようとしている今、今年前半...
表紙ニュース記者 孟美 張悦希休日明けの初日、北京冬季オリンピックも競技3日目に入った。スタジアム内...
人工ニューラル ネットワーク (ANN) またはコネクショニスト システムは、生物学的脳を構成する生...