Code Llama 70B は 5 か月の練習を経て GPT-4 を破り、3 回連続でチャートのトップを獲得しました。ザッカーバーグは自ら新しい

Code Llama 70B は 5 か月の練習を経て GPT-4 を破り、3 回連続でチャートのトップを獲得しました。ザッカーバーグは自ら新しい

本日、Meta は Code Llama シリーズで最大かつ最も強力なバージョンである Code Llama 70B を正式にリリースし、GPT-4 を一撃で打ち負かしました。

現在、このモデルには 3 つのバージョンがあり、研究目的および商用目的ではすべて無料で使用できます。

CodeLlama - 70B: 基本コードモデル。

CodeLlama - 70B - Python: Python 専用の 70B モデル。

CodeLlama - 70B - Instruct: 自然言語の指示を理解するために特化したモデル。

8 月にリリースされた Code Llama 7B、13B、34B が加わり、このファミリーが完成しました。

論文アドレス: https://ai.meta.com/research/publications/code-llama-open-foundation-models-for-code/

実際、Code Llama はリリース時にすでにその優れた強みを発揮しており、数あるコード生成モデルの中でもトップの地位を占めています。

しかし、GPT-4 は HumanEval (pass@1) スコアが 67.0 (Code Llama 34B は 53.7) と、依然として大きくリードしています。

Code Llama の調整版は後により良い結果を達成しましたが、Meta の公式表には掲載されませんでした。

しかし! 5 か月の懸命な研究を経て、Code Llama はついに注目を集め、最強の 70B モデルで 3 つのテストすべてでトップに躍り出ました。

その中で、CodeLlama-70B-Instruct は HumanEval で 67.8 という高スコアを直接獲得し、現在最も強力なオープンソース モデルの 1 つとなっています。

GPT-4 を除いて、他の同様のモデルはこれに匹敵することはほとんど不可能であると言えます。

これに対して、LeCun 氏はリツイートして自身の新しいモデルを宣伝した。「新世代の Code Llama は、以前のモデルと同様にオープンソースのままです。」

ついに自身のAIが宝物だと気づいたザッカーバーグ氏は、宣伝活動も強化した。

700 億の大規模なパラメータ モデルを含む、新しくてより強力な Code Llama を正式にオープンソース化しました。

今日の AI 分野では、コードの作成と編集が最も重要なアプリケーションの 1 つになっています。同様に、他の分野でより厳密かつ論理的な情報処理を実行する AI モデルにとっても、プログラミング能力は特に重要です。

私はこの分野で私たちが成し遂げた進歩を非常に誇りに思っており、これらの進歩を将来のLlama 3およびそれ以降のモデルに組み込むことを非常に楽しみにしています。

技術詳細

Code Llama は、テキストプロンプトからコードを生成できる大規模な言語モデルです。既存の開発者の作業効率が向上するだけでなく、プログラミング初心者の学習ハードルも下がります。

Meta は、Code Llama を生産性を向上させるだけでなく、教育的価値も持ち、プログラマーがより安定した、文書化されたソフトウェアを作成できるようにするツールにしたいと考えています。

Code Llama は、プログラミング タスク専用に開発された Llama 2 のバージョンです。

Code Llama は、コーディング専用に設計されたデータセットでより深いトレーニングを実施することで、関数の作成、コード補完、デバッグなどのプログラミング タスクを支援するコードを理解して生成できます。

Python、C++、Java、PHP、Typescript (Javascript)、C#、Bash など、多くの一般的なプログラミング言語をサポートしています。

これまでのところ、Code Llama シリーズには 4 つのサイズがあり、パラメータはそれぞれ 7B、13B、34B、70B です。

最初の 3 つのモデルは 500B トークンのコードと関連データを使用してトレーニングされましたが、新しくリリースされた 70B モデルでは 1TB トークンが使用されました。

さらに、7B および 13B の基本モデルと命令モデルは、既存のコードに新しいコードを直接挿入できる (コード補完) 中間補完 (FIM) 機能を使用してトレーニングされています。

Code Llama シリーズ モデルは、さまざまなニーズとパフォーマンス要件に合わせて最適化されています。

7B モデルは単一の GPU で実行でき、高速応答のシナリオに適しています。一方、34B モデルと 70B モデルはより高度なエンコード支援機能を提供しますが、実行速度は遅くなります。

Code Llama は最大 100,000 トークンの長さのコンテキストを処理できるため、モデルはより長いプログラム コードを理解して生成できます。

これは、開発者が多くのコード コンテキストを提供してより正確なコーディング提案を得ることができる、大規模なコード ベースでのタスクのデバッグに特に役立ちます。

さらに、Code Llama は、Code Llama - Python と Code Llama - Instruct という 2 つの特別エディションをリリースしました。

AI コミュニティにおける Python の重要性を考慮して、Code Llama - Python は Python コードに特別に最適化されており (1000 億トークンの Python コード データを使用して微調整済み)、Python コードの生成がよりスムーズかつ正確になります。

CodeLlama-70B-Python は、Web スクレイピング、データ分析、機械学習 (ML)、Web 開発などのさまざまなタスクも処理できます。

Code Llama - Instruct は、自然言語の指示と予想される出力を受け入れることでトレーニングされ、ユーザーのニーズに基づいてコードや回答をより適切に生成できるようになります。

CodeLlama-70B-Instruct は、データの並べ替え、検索、フィルタリング、操作のほか、アルゴリズム (二分探索、フィボナッチ、階乗など) の実装にも使用できます。

より安全で有用な結果を得るためにコード生成が必要な場合は、Code Llama - Instruct を優先して使用することをお勧めします。

主にプログラミングの問題に使用される Code Llama と Code Llama - Python は、一般的な自然言語タスクの処理には適していないことに注意してください。

ベンチマーク

業界で広く使用されているプログラミング ベンチマークを使用して、新しい Code Llama が同様のモデルと比較してどのように機能するかを見てみましょう。

HumanEval と Mostly Basic Python Programming (MBPP)。

HumanEval は、コード生成モデルの機能的正確性とロジックをテストする 164 個のプログラミング問題のベンチマーク データセットであり、MBPP は特定の説明に基づいてコードを記述するモデルのスキルをテストします。

前世代の 34B のパフォーマンスが非常に優れていることがわかります。パラメータ数が 2 倍の Code Llama 70B がリストを直接支配し、34B と比較してパフォーマンスが大幅に向上しています。

その中で、CodeLlama-70B-InstructはHumanEvalで67.8という高スコアを獲得し、CodeGen-16B-Mono(29.3)やStarCoder(40.1)などのオープンモデルのこれまでの最高スコアを上回り、GPT-4(68.2)やGemini Pro(69.4)などのクローズドソースモデルに匹敵するスコアを獲得しました。

もちろん、AI モデルをより責任を持って開発するために、Meta は複数のセキュリティ対策を講じ、悪意のあるコードを生成するリスクを定量化しました。

結果は、Code Llama が ChatGPT (GPT3.5 Turbo) よりも安全な回答を提供することを示しています。

コーディングモデルGPT-4に挑戦!

現在、Code Llama 70B は、Hugging Face、PyTorch、TensorFlow、Jupyter Notebook などのさまざまな主流のプラットフォームやフレームワークを通じてアクセスして使用できます。

さらに、Meta AI は、さまざまな目的や言語に合わせてモデルを使用および微調整するためのドキュメントとチュートリアルを提供します。

このモデルのリリースに伴い、主要な AI プラットフォームも Code Llama 70B のサポートを追加しました。

直接プレイを開始することもできます:

大手企業の中には、Code Llama 70B を Apple のプロセッサで実行したところもあったが、それは「少し熱くなる」程度だった。

次に、Code Llama 70B を単純に 4 ビットに直接量子化しました。

<<:  OpenAIの「コピー&ペースト」の背後にあるのは、盗作者が全てを無料で手に入れたいということ

>>: 

ブログ    
ブログ    

推薦する

Verdict、2020年第1四半期のTwitterにおけるIoTトレンドトップ5を発表

私たちは、企業や専門家が IoT についてどう考えているかを知りたいと思っていますが、一般の人々はど...

この式がブロックされると、AI IQはゼロになります

[[214770]]この記事はQuantum School(WeChat:quantumschool...

...

人工知能によるモザイク除去ディープ CNN デノイザーと多層隣接コンポーネント埋め込みによるモザイク除去

モザイク除去のための人工知能、ディープ CNN デノイザーとモザイク除去のための多層隣接コンポーネン...

劉烈宏:中国の中核人工知能産業の規模は今年上半期に770億元に達した

[[354052]] 11月24日、工業情報化部の劉烈宏副部長は人工知能サブフォーラム「人工知能:新...

ディープラーニングを理解する

1. 現在の状況:ディープラーニングは現在非常に注目されており、あらゆる種類のカンファレンスがそれと...

マルチモーダル生成AIの深掘り

マルチモーダル生成型人工知能 (GenAI) は、汎用人工知能の実現に向けた次の大きな進歩と言えます...

Google が基本世界モデルをリリース: 110 億のパラメータ、インタラクティブな仮想世界を生成可能

Sora がリリースされてからまだ 2 週間も経っていないが、Google の世界モデルが登場し、そ...

見逃せない AIOps 実装の重要なポイントを解説するガイド

[[280530]] [51CTO.com クイック翻訳] システムの効率性と複雑さが増すにつれて、...

5G時代には人工知能が人を殺し始めるのでしょうか?

映画やテレビ作品では、人工知能による殺人はごく普通のことのように思えますが、結局のところ、それは人間...

優れたオープンソース画像背景除去プログラム8選

画像背景除去プログラムは、画像内の被写体と背景を自動的に分割し、背景を除去することによって機能します...

誰もが今から準備すべき、2020 年のキャリアを変える 6 つのテクノロジー トレンド

[51CTO.com クイック翻訳] 新しいテクノロジーの導入により、私たちの職場は変化しています。...

プロセス産業におけるグリーン製造における人工知能の機会と課題

1. はじめにプロセス産業は原材料産業の一分野であり、国民経済にとって大きな意義を持っています。数十...