アルパカファミリーの「最強のオープンソースコードモデル」が「スーパーカップ」を発売しました—— 今朝、Meta は Code Llama の 70B バージョンのリリースを発表しました。 写真 HumanEval テストでは、Code Llama-70B がオープンソース コード モデルの中で 1 位となり、GPT-4 を上回りました。 今回発売された超特大カップは、小型バージョンと同様のライセンス契約を維持しており、商用利用も引き続き無償でご利用いただけます。 写真 バージョンとしては、いつも通り、オリジナル版、自然言語命令向けに微調整されたInstruct版、Python向けに微調整されたPython版に分かれています。 GPT-4 に勝ったのは Instruct バージョンで、pass@1 スコアが 67.8 となり、GPT-4 の 67 ポイントを上回りました。 34B モデルと比較すると、ベーシック バージョンと Instruct バージョンのスコアはそれぞれ 8.6% と 63.4% 向上しました。 写真 Code Llama のすべてのバージョンは、コンテキストの長さが最大 100,000 トークンの 16,000 トークンのシーケンスでトレーニングされます。 つまり、Code Llama はより長いコードを生成するだけでなく、ユーザーのカスタム コード ベースからさらにコードを読み取ってモデルに渡すこともできます。 これにより、特定の問題に関連するコードをすばやく見つけることができるため、大量のコードをデバッグするときにユーザーがどこから始めればよいかわからないという問題が解決されます。 MetaのCEO、マーク・ザッカーバーグ氏も自身の個人ブログでこのニュースを発表し、70B Code Llamaに対する誇りを表明した。 写真 注意深いネットユーザーもザッカーバーグ氏の投稿でその秘密を発見した。 ラマ3が来るの?
実際、投稿の最後でザッカーバーグ氏は、これらの結果がラマ3に適用できることを望んでいると述べた。 写真 ラマ3は本当に来るのでしょうか? ラマ3に関する噂は昨年8月にはすでに出始めていたが、ラマ3のトレーニングが進行中であることをザッカーバーグ氏が正式に明らかにしたのは先週になってからだった。 同時に、Meta はコンピューティング能力をさらに拡大しており、今年末までに 35 万台の H100 を導入する予定です。 他のグラフィック カードも H100 に変換すれば、Meta の総計算能力は 600,000 枚の H100 に相当します。 写真 しかし、ザッカーバーグ氏が明らかにした情報はネットユーザーの好奇心を満たすものではなかったようで、ラマ3がいつ発売されるのかについては議論が尽きない。
この問題に関する公式ニュースはまだありませんが、今年の第 1 四半期になるのではないかと推測する人もいます。 写真 しかし、Llama 3 が今後もオープン ソースであり続けることは確かです。 同時に、ザッカーバーグ氏は、AGI は次世代の人工知能の主要なシンボルとなり、Meta が追求する目標でもあると述べました。 AGI の実現を加速するために、Meta は FAIR チームと GenAI チームも統合しました。 写真 ボリュームパラメータの数量は必要ですか?Llama 3の「偶然の発見」に加えて、ネットユーザーからはCode Llama自体についても多くの疑問と期待が寄せられた。 まず、Code Llama を実行するために必要なハードウェア リソースに関して、一部のネットユーザーは、Apple M2 Max などのチップ上で実行されることを期待しています。 写真 しかし、現実には、CUDA は N カードなしでは使用できないため、M シリーズの Apple チップ上での Code Llama の実行結果は理想的ではありません。 写真 N カードに関しては、モデルが量子化されれば 4090 で駆動できるのではないかと推測する人もいます。 また、この考え方は楽観的すぎると疑問視する人もおり、4090 がもたらす定量化の程度はこのモデルには適用できないかもしれないとも言われています。 しかし、計算速度とビデオ メモリ領域をトレードオフできる場合は、代わりに 2 つの 3090 を使用するのも悪くありません。 写真 しかし、4090 は消費者向けグラフィックス カードですが、ほとんどのプログラマーは 70B モデルを効率的に実行できるデバイスをまだ持っていない可能性があります。 これにより、別の疑問も生じます。ヒープ パラメータは本当に必要なのでしょうか? Pass@1 ランキングでは、DeepSeek チームの DeepSeek Coder は Code Llama よりも 2.3 ポイント高いパフォーマンスを示しましたが、パラメータの数は 67 億個に過ぎず、後者の 10 分の 1 以下でした。 写真 垂直に比較すると、DeepSeek Coder の 6.7B バージョンと 33B バージョンは 2.5 ポイントしか差がなく、パラメータ数によるパフォーマンスの向上は Code Llama ほど顕著ではありません。 写真 したがって、パラメータの数を増やすことに加えて、Meta はモデル自体にさらに力を入れる必要が生じる可能性があります。 写真 参考リンク: |
<<: 精度が 20% 未満なので、GPT-4V/Gemini はコミックを理解できません。最初の画像シーケンスベンチマークがリリースされました
>>: AIGC教育産業パノラマレポート:AIティーチングアシスタントと家庭教師が現実のものとなり、学習マシンが新たな機会をもたらす
SambaNova Systems が調査した企業の大多数は、2022 年までに AI を主要な収...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
機械学習が「人間レベル」の能力に到達するには、多くのトレーニング反復とラベル付きデータが必要です。こ...
COVID-19 は小売業界に大きな混乱をもたらしましたが、新しいテクノロジーはこれまで以上に重要な...
現在、人工知能 (AI) に関する同様の規制が世界中の複数の地域で施行され始めており、GDPR に関...
モンスターAPIは、採掘機器などのGPUコンピューティングパワーを使用してAIモデルをトレーニングし...
[[401713]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...
人工知能 (AI) システムは人間に似た方法でやり取りするため、一部の人は不安に思うかもしれませんが...
[[383176]]今日、人工知能 (AI) は、これまで以上に高速にデータを収集、処理、分析する...
[[437362]]石油・ガス生産者の操業実績を測る指標は数多くあり、効率性の向上、コストの削減、油...
わが国のアルゴリズム推奨政策は明確に実施されており、アルゴリズム差別、「ビッグデータによる旧顧客殺し...
機械学習モデルのトレーニングは通常、一連の入力機能と出力ターゲット間のマッピングを学習することによっ...