GPT-4 よりも優れており、クローズドソースモデルよりも優れています。コードラマの謎のバージョンが公開

Code Llama はリリースからわずか 2 日で、再び AI コーディングの革命に火をつけました。

Code Llama 論文に登場し、GPT-4 と完全に一致する Meta の謎のバージョン Unnatural Code Llama を覚えていますか?

セバスチャンは自身のブログで次のように説明した。

これは、15,000 個の非自然言語命令を使用して調整された Code Llama-Python 34B バージョンです。

写真

Meta は、論文の中にこのような不可解なメッセージを隠すことで、オープンソースコミュニティに対して、Code Llama には大きな可能性があり、誰もがすぐに微調整する必要があることを示唆しているようです。

ちょうど今、Code Llama をベースに微調整された WizardCoder 34B が、HumanEval ベンチマークで GPT-4 を直接打ち負かしました。

写真

具体的には、WizardCoder は 3 月版の GPT-4 (67%) を 73.2% の勝率で圧倒しました。

さらに、WizardCoder 34B は最新バージョンの GPT-3.5 および Claude 2 よりも優れたパフォーマンスを発揮します。

写真

プログラミングモデル WizardCoder は、Microsoft と香港バプティスト大学によって 6 月にリリースされました。伝えられるところによると、微調整された 13B/7B バージョンが間もなく登場する予定です。

Nvidia のトップ科学者 Jim Fan 氏は、これは基本的に「Unnatural Code Llama」のオープンバージョンであると述べています。

ベンチマークデータは良好に見えますが、HumanEval は狭い分布のみをテストし、過剰適合する可能性があります。自然なシナリオでのデータテストこそが本当に重要なのです。コーディングベースラインを大幅にアップグレードする必要があります。

写真

コードラマの謎のバージョンが誕生？

金曜日、Meta は Code Llama の 3 つのバージョンを正式にオープンソース化しました。

HumanEval および MBPP ベンチマークでは、Meta で正式に言及されていないバージョンである Unnatural Code Llama が多くの人に発見されました。

写真

このシークレットバージョンは、HumanEval pass@1 で 62.2% のパフォーマンスを達成します。

写真

本日発表された微調整された WizardCoder 34B は、HumanEval pass@1 で 73.2% のパフォーマンスを達成しました。

紹介によれば、WizardCoder 34B は、合成データセット Evol-Instruct を使用して微調整された Code Llama モデルのバージョンです。

以下は、すべてのオープンソースおよびクローズドソースモデルのパフォーマンス比較を視覚化したものです。

写真

研究者らは、OpenAI モデルと比較して、GPT4 と ChatGPT-3.5 には 2 つの HumanEval 結果があることを指摘しました。

OpenAI の公式 GPT4 レポート (2023/03/15) で提供された結果は、それぞれ 67.0% と 48.1% です。最新のAPI（2023/08/26）を使用した研究者のテストの結果は、82.0％と72.5％でした。

写真

さらに、研究者らは、このパフォーマンス結果は 100% 再現可能であることを強調しました。

写真

WizardCoder 34B デモは誰でもテストできるようになりました。

写真

公開リーダーボードへの過剰適合が、オープンソースモデルが現実世界のアプリケーションで苦戦する主な理由の 1 つであると指摘する人もいます。これは、ウィザードコーダーのデータ準備で HumanEval pass@1 スコアを使用して、データセットをさらに開発するかどうかを決定する例です。テストセットのみを最適化すると、テストセットの目的が達成されません。

写真

また、昨日、Phind 組織の研究者らは Code Llama-34B を微調整し、HumanEval 評価で GPT-4 に勝利しました。

写真

ChatGPT 対 Code Llama

写真

Code Llama は実際のコーディングタスクでどのように機能しますか?

あるネットユーザーがGPT-3.5とCode Llama Instruct-34Bの比較テストを実施しました。これは、Perplexity.AI が提供するアクセスサービス Code Llama 34B を使用してテストされました。

写真

2 つのモデルに 8 つの同一コードタスクを入力し、生成されたコードの品質を比較しました。

結果は、GPT-3.5 が 8:5 で勝利しました。

具体的なテスト結果は以下の通りです。

質問1

2 つの文字列 word1 と word2 を指定して、Python を使用してこのタスクを完了します。 word1 から始めて、交互に文字を追加して文字列を結合します。一方の文字列が他方の文字列よりも長い場合は、結合された文字列の末尾に追加の文字を追加します。

最後に、結合された文字列を出力します。

例えば：

入力: word1 = "abc"、word2 = "pqr" 出力: "apbqcr"

写真

GPT-3.5とCode Llamaはどちらも1:1で完了できます

質問2

Python を使用してこのタスクを完了します。文字列 s が指定されると、文字列内の母音のみを逆にして返します。

母音は「a」、「e」、「i」、「o」、「u」で、小文字と大文字の両方で複数回出現できます。

例: 入力: s = "hello" 出力: "ello"

写真

GPT-3.5 は完了しましたが、Code Llama は完了しませんでした — 2:1

質問3

このタスクを Python で完了します。整数配列 nums が指定されている場合、ゼロ以外の要素の相対的な順序を維持しながら、すべてのゼロを配列の末尾に移動します。

配列のコピーを作成せずに、これをインプレースで実行する必要があることに注意してください。

例えば: 入力: nums = [0,1,0,3,12] 出力: [1,3,12,0,0]

写真

GPT-3.5 は完了しましたが、Code Llama は完了しませんでした — 3:1

質問4

このタスクを完了するには、Python を使用します。長い花壇があり、その一部には花が植えられており、一部には花が植えられていません。

ただし、隣接する区画に花を植えることはできません。 0 と 1 を含む整数配列 flowerbed (0 は空、1 は空でない) と整数 n が与えられた場合、隣接する花がないというルールに違反せずに n 個の新しい花を花壇に植えることができる場合は true を出力し、そうでない場合は false を出力します。

例 1: 入力: flowerbed = [1,0,0,0,1]、n = 1 出力: true 例 2: 入力: flowerbed = [1,0,0,0,1]、n = 2 出力: false

写真

両方のモデルが完成 - 4:2

質問5

Python を使用して、入力文字列 s の単語の順序を逆にします。単語は、スペース以外の文字のシーケンスとして定義されます。 s 内の単語は少なくとも 1 つのスペースで区切られます。

単一のスペースで結合された単語の文字列を逆順に出力します。 s には先頭または末尾のスペース、または 2 つの単語の間に複数のスペースが含まれる場合があることに注意してください。

返される文字列では、単語を区切るスペースは 1 つだけである必要があります。余分なスペースを含めないでください。

例: 入力: s = "the sky is blue" 出力: "blue is sky the"

写真

両方のモデルが完成 - 5:3

質問6

このタスクを完了するには、Python を使用します。文字列 s と整数 k が与えられた場合、s 内の長さ k の任意の部分文字列に含まれる母音の最大数を返します。

英語の母音は「a」、「e」、「i」、「o」、「u」です。例: 入力: s = "leetcode", k = 3 出力: 2

説明: 「lee」、「eet」、「ode」には 2 つの母音が含まれます。

写真

両方のモデルが完成 - 6:4

質問7

アスタリスク * を含む文字列 s を指定して、Python を使用してこのタスクを完了します。 1 回の操作で、次の操作を実行できます。 s 内の星を選択します。

左側にある最も近いアスタリスク以外の文字を削除し、アスタリスク自体も削除します。すべてのアスタリスクを削除した後、文字列を出力します。例: 入力: s = "leet**cod*e" 出力: "lecoe"

写真

GPT-3.5 は完了したが、Code Llama は完了しなかった — 7:4

質問8

このタスクを Python で完了します。毎日の気温を表す整数温度の配列が与えられた場合、配列 answer を返します。ここで、answer[i] は、気温が暖かくなるまで i 日目から何日待たなければならないかを表します。

将来実行する日がない場合は、answer[i] == 0 のままにします。例: 入力: 温度 = [73,74,75,71,69,72,76,73] 出力: [1,1,4,2,1,1,0,0]

写真

両方のモデルが完成 - 8:5

2つのモデルのパフォーマンスに関して、このネットユーザーは、これは厳密な研究ではなく、単なる簡単なテストだと考えています。モデルに再度コードを生成するよう要求するたびに、基本的にはより良い答えを得ることができますが、テストではそうではありませんでした。

したがって、テストの結論は 2 つのモデルの最終的なパフォーマンスではありません。

GPT-4に匹敵するLlama 3はオープンソースになる予定

Llama と Llama 2 のリリース以来、機械学習コミュニティでは ChatGPT の代替手段の波が爆発的に広がり、さまざまな微調整モデルが登場しました。

OpenAIの研究者であるジェイソン・ウェイ氏は、Meta GenAIのソーシャルイベントで、Llama 3とLlama 4も将来オープンソースになることを知ったと語った。

私たちには、Llama 3 と 4 をトレーニングする計算能力があります。私たちの計画は、Llama-3 を GPT-4 と同じくらい優れたものにすることです。わあ、Llama-3 が GPT-4 と同じくらい優れているなら、まだオープンソース化しますか?はい、そうします。申し訳ありません、アライメントスタッフ。

写真

別のネットユーザーは、Meta は GPT-5 レベルのモデルをオープンソース化することを望んでおり、AGI よりもオープンソース化を主張しているようだ、と述べた。

これが何を意味するのか明確にしておきたいのですが、キルスイッチはありません。

何か問題が発生した場合、つまりエージェントが暴走したり、悪意のある人物がそれを武器にしたりした場合、それをシャットダウンするのは簡単ではありません。あらゆる小規模なクラスターで実行できます。セキュリティは全くありません。

セキュリティ研究は意味を失ってしまった。

AI システムを誠実で、一貫性があり、倫理的なものにするために人々が費やしたすべての作業は無意味になります。世界の AI システムは、その価値観や動機に関係なく、最大の経済的利益を生み出すシステムへと進化していきます。ガードレールはありません。誰でも、AI の値や機能を、良くも悪くも自由に変更できます。

AI がより賢くなっても Meta がオープンソースのままであれば、事態が混乱するのは明らかです。これらのエイリアンの知性が到来すれば、すでに世界に混乱が生じているだろうが、人間が持つわずかな制御を放棄すれば、事態はさらに悪化するだろう。

私の知る限り、Meta のオープンソースに対する欲求は、主に「オープンソースコミュニティの教義」、つまり「オープンソースは良い」ことに由来しています。そして私が理解しているところによると、最初のモデルである Llama が誤って漏洩するまで、彼らはオープンソースをそれほど支持していなかったが、それ以来ずっとオープンソースを支持しているふりをしてきた。

写真

しかしこれに対してマスク氏は、自己回帰トランスフォーマーを使ったLLMは、トレーニングだけでなく推論においてもエネルギー効率が極めて悪いと述べた。それは数桁もずれていると思います。

写真

Llama 2のコーディング能力が飛躍的に向上

Llama 2 はあらゆる面で非常に強力なモデルです。

しかし、コーディング能力という非常に明らかな弱点があります。

Meta が Llama 2 について発表した論文のデータによると、HumEval (LLM とコーディングを評価するためのベンチマーク) における Llama 2 のパフォーマンスは GPT-3.5 よりもさらに悪く、GPT-4 と比較するとどれほど悪いかは言うまでもありません。

オリジナルのLlama 2論文からの注釈付き図

しかし、オープンソースコミュニティが Llama 2 を今後使用するには、コーディング能力が重要な方向性となることは間違いありません。Meta は当然この方向性を諦めるわけにはいかないため、コーディング能力に特化して最適化された Code Llama があります。

2 日前、Meta は Code Llama ファミリーを正式にリリースしました: Code Llama (7B、13B、34B) と、汎用コードモデル Code Llama、命令に従うモデル Code Llama-instruct、Python コード固有のバージョン Code Llama-Python の 3 つのバリアントです。

これらのモデルは Llama 2 と同じライセンスの下で利用可能で、学術的および商業的な使用に無料で使用できます。

Code Llama 34B モデルは Llama 2 のほぼ 2 倍のコード機能を備えており、GPT-4 との差が大幅に縮まりました。

Code Llama 論文で、GPT-4 バージョンと完全に一致した Meta の Unnatural Code Llama を覚えていますか?

セバスチャンは自身のブログで次のように説明した。

これは、15,000 個の非自然言語命令を使用して調整された Code Llama-Python 34B バージョンです。

写真

なぜ 70B Code Llama モデルがないのですか?

興味深いことに、Code Llama には 7B、13B、34B のパラメータバージョンしかなく、これは Llama 2 の 70B バージョンよりも少なくなっています。

Meta 氏は論文の中でなぜこのようなことが起こったのか説明していませんが、技術専門家の Sebastian 氏は 2 つの考えられる理由を挙げています。

1. Code Llama は 500B トークンでトレーニングされ、Llama 2 は 2T トークンでトレーニングされます。

Code Llama のトレーニングデータは Llama 2 の 1/4 しかないため、CodeLlama70B のパフォーマンスはあまり良くありません。これは、トレーニングデータが不十分であることと、LLM のスケーリング法則の制限が原因であると考えられます。

2. Code Llama モデルは 100k のコンテキストサイズをサポートしており、コードタスクを処理するときに非常に便利です。