Code Llama 70B は 5 か月の練習を経て GPT-4 を破り、3 回連続でチャートのトップを獲得しました。ザッカーバーグは自ら新しい

Code Llama 70B は 5 か月の練習を経て GPT-4 を破り、3 回連続でチャートのトップを獲得しました。ザッカーバーグは自ら新しい

本日、Meta は Code Llama シリーズで最大かつ最も強力なバージョンである Code Llama 70B を正式にリリースし、GPT-4 を一撃で打ち負かしました。

現在、このモデルには 3 つのバージョンがあり、研究目的および商用目的ではすべて無料で使用できます。

CodeLlama - 70B: 基本コードモデル。

CodeLlama - 70B - Python: Python 専用の 70B モデル。

CodeLlama - 70B - Instruct: 自然言語の指示を理解するために特化したモデル。

8 月にリリースされた Code Llama 7B、13B、34B が加わり、このファミリーが完成しました。

論文アドレス: https://ai.meta.com/research/publications/code-llama-open-foundation-models-for-code/

実際、Code Llama はリリース時にすでにその優れた強みを発揮しており、数あるコード生成モデルの中でもトップの地位を占めています。

しかし、GPT-4 は HumanEval (pass@1) スコアが 67.0 (Code Llama 34B は 53.7) と、依然として大きくリードしています。

Code Llama の調整版は後により良い結果を達成しましたが、Meta の公式表には掲載されませんでした。

しかし! 5 か月の懸命な研究を経て、Code Llama はついに注目を集め、最強の 70B モデルで 3 つのテストすべてでトップに躍り出ました。

その中で、CodeLlama-70B-Instruct は HumanEval で 67.8 という高スコアを直接獲得し、現在最も強力なオープンソース モデルの 1 つとなっています。

GPT-4 を除いて、他の同様のモデルはこれに匹敵することはほとんど不可能であると言えます。

これに対して、LeCun 氏はリツイートして自身の新しいモデルを宣伝した。「新世代の Code Llama は、以前のモデルと同様にオープンソースのままです。」

ついに自身のAIが宝物だと気づいたザッカーバーグ氏は、宣伝活動も強化した。

700 億の大規模なパラメータ モデルを含む、新しくてより強力な Code Llama を正式にオープンソース化しました。

今日の AI 分野では、コードの作成と編集が最も重要なアプリケーションの 1 つになっています。同様に、他の分野でより厳密かつ論理的な情報処理を実行する AI モデルにとっても、プログラミング能力は特に重要です。

私はこの分野で私たちが成し遂げた進歩を非常に誇りに思っており、これらの進歩を将来のLlama 3およびそれ以降のモデルに組み込むことを非常に楽しみにしています。

技術詳細

Code Llama は、テキストプロンプトからコードを生成できる大規模な言語モデルです。既存の開発者の作業効率が向上するだけでなく、プログラミング初心者の学習ハードルも下がります。

Meta は、Code Llama を生産性を向上させるだけでなく、教育的価値も持ち、プログラマーがより安定した、文書化されたソフトウェアを作成できるようにするツールにしたいと考えています。

Code Llama は、プログラミング タスク専用に開発された Llama 2 のバージョンです。

Code Llama は、コーディング専用に設計されたデータセットでより深いトレーニングを実施することで、関数の作成、コード補完、デバッグなどのプログラミング タスクを支援するコードを理解して生成できます。

Python、C++、Java、PHP、Typescript (Javascript)、C#、Bash など、多くの一般的なプログラミング言語をサポートしています。

これまでのところ、Code Llama シリーズには 4 つのサイズがあり、パラメータはそれぞれ 7B、13B、34B、70B です。

最初の 3 つのモデルは 500B トークンのコードと関連データを使用してトレーニングされましたが、新しくリリースされた 70B モデルでは 1TB トークンが使用されました。

さらに、7B および 13B の基本モデルと命令モデルは、既存のコードに新しいコードを直接挿入できる (コード補完) 中間補完 (FIM) 機能を使用してトレーニングされています。

Code Llama シリーズ モデルは、さまざまなニーズとパフォーマンス要件に合わせて最適化されています。

7B モデルは単一の GPU で実行でき、高速応答のシナリオに適しています。一方、34B モデルと 70B モデルはより高度なエンコード支援機能を提供しますが、実行速度は遅くなります。

Code Llama は最大 100,000 トークンの長さのコンテキストを処理できるため、モデルはより長いプログラム コードを理解して生成できます。

これは、開発者が多くのコード コンテキストを提供してより正確なコーディング提案を得ることができる、大規模なコード ベースでのタスクのデバッグに特に役立ちます。

さらに、Code Llama は、Code Llama - Python と Code Llama - Instruct という 2 つの特別エディションをリリースしました。

AI コミュニティにおける Python の重要性を考慮して、Code Llama - Python は Python コードに特別に最適化されており (1000 億トークンの Python コード データを使用して微調整済み)、Python コードの生成がよりスムーズかつ正確になります。

CodeLlama-70B-Python は、Web スクレイピング、データ分析、機械学習 (ML)、Web 開発などのさまざまなタスクも処理できます。

Code Llama - Instruct は、自然言語の指示と予想される出力を受け入れることでトレーニングされ、ユーザーのニーズに基づいてコードや回答をより適切に生成できるようになります。

CodeLlama-70B-Instruct は、データの並べ替え、検索、フィルタリング、操作のほか、アルゴリズム (二分探索、フィボナッチ、階乗など) の実装にも使用できます。

より安全で有用な結果を得るためにコード生成が必要な場合は、Code Llama - Instruct を優先して使用することをお勧めします。

主にプログラミングの問題に使用される Code Llama と Code Llama - Python は、一般的な自然言語タスクの処理には適していないことに注意してください。

ベンチマーク

業界で広く使用されているプログラミング ベンチマークを使用して、新しい Code Llama が同様のモデルと比較してどのように機能するかを見てみましょう。

HumanEval と Mostly Basic Python Programming (MBPP)。

HumanEval は、コード生成モデルの機能的正確性とロジックをテストする 164 個のプログラミング問題のベンチマーク データセットであり、MBPP は特定の説明に基づいてコードを記述するモデルのスキルをテストします。

前世代の 34B のパフォーマンスが非常に優れていることがわかります。パラメータ数が 2 倍の Code Llama 70B がリストを直接支配し、34B と比較してパフォーマンスが大幅に向上しています。

その中で、CodeLlama-70B-InstructはHumanEvalで67.8という高スコアを獲得し、CodeGen-16B-Mono(29.3)やStarCoder(40.1)などのオープンモデルのこれまでの最高スコアを上回り、GPT-4(68.2)やGemini Pro(69.4)などのクローズドソースモデルに匹敵するスコアを獲得しました。

もちろん、AI モデルをより責任を持って開発するために、Meta は複数のセキュリティ対策を講じ、悪意のあるコードを生成するリスクを定量化しました。

結果は、Code Llama が ChatGPT (GPT3.5 Turbo) よりも安全な回答を提供することを示しています。

コーディングモデルGPT-4に挑戦!

現在、Code Llama 70B は、Hugging Face、PyTorch、TensorFlow、Jupyter Notebook などのさまざまな主流のプラットフォームやフレームワークを通じてアクセスして使用できます。

さらに、Meta AI は、さまざまな目的や言語に合わせてモデルを使用および微調整するためのドキュメントとチュートリアルを提供します。

このモデルのリリースに伴い、主要な AI プラットフォームも Code Llama 70B のサポートを追加しました。

直接プレイを開始することもできます:

大手企業の中には、Code Llama 70B を Apple のプロセッサで実行したところもあったが、それは「少し熱くなる」程度だった。

次に、Code Llama 70B を単純に 4 ビットに直接量子化しました。

<<:  OpenAIの「コピー&ペースト」の背後にあるのは、盗作者が全てを無料で手に入れたいということ

>>: 

ブログ    
ブログ    

推薦する

人工知能とビッグデータが私たちの生活に何をもたらすかご存知ですか?

「ビッグデータ」と「人工知能」はテクノロジー業界で最も価値のある分野となっている。Apple、Go...

AI アシスタントの人気が高まっていますが、次に購入するスマートフォンはなぜ電話なのでしょうか?

大きな模型ブームが到来し、アイアンマンのジャービスが最も忙しい「マーベルヒーロー」(手動の犬の頭)に...

デジタルヒューマンがアジア競技大会の聖火を灯す:ICCV 論文から見る Ant の生成 AI テクノロジーの新たな一面

9月23日夜、杭州アジア競技大会の開会式でメイントーチに火が灯されると、数億人のオンラインデジタル聖...

...

専門家の視点:汎用人工知能の可能性

人工知能分野の発展に関するニュースを追う際の課題の 1 つは、「AI」という用語が、無関係な 2 つ...

医療の発展は自動化に向かっており、手術ロボットは急速に発展している。

社会の継続的な発展に伴い、わが国の医療・ヘルスケア産業は徐々に変化を迎え、医療機器のインテリジェント...

この日本のAIは話題になっています: スケッチを2Dの妻にリアルタイムで変換でき、512の調整可能なパラメータがあります

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

AIダイナミックセキュリティガードデータセンター

最近の世界的な調査によると、企業の事業がハッキングされると莫大な損失が発生し、サイバー攻撃1回あたり...

年末総括|2020年日本におけるAI(ロボティクス)分野の主なニュースを振り返る

在庫がなければ大晦日もありません。 2020年に日本のAI・ロボティクス分野で起こった出来事をいくつ...

労働者は一生懸命働かなければなりません! AI仮想人間が労働力に参入しようとしている

[[413812]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

中国初!最も人気のあるMoE大型モデルアプリがここにあります。無料でダウンロードでき、誰でもプレイできます。

MoE(Mixed of Experts)モデルは最近とても人気があるので、詳しく紹介する必要はな...

メモリを3%~7%削減! Google がコンパイラ最適化のための機械学習フレームワーク MLGO を提案

現代のコンピュータの出現により、より高速でより小さなコードをコンパイルする方法が問題になりました。コ...

ローコード プラットフォームに関する不完全な推奨事項!

ソフトウェア開発者向けのローコード機能それでは、ソフトウェア開発者に機械学習機能を提供するローコード...

...