7B オープンソースモデル、その数学的能力は数千億規模の GPT-4 を超えます。 その性能はオープンソースモデルの限界を突破しており、アリババ・トンイの研究者でさえスケーリング則が無効になったと嘆いている。 外部ツールを使わずに、競技レベルの MATH データセットで 51.7% の精度を達成できます。 オープンソース モデルの中で、このデータセットで半分の精度を達成した最初のモデルであり、GPT-4 の以前のバージョンや API バージョンを上回っています。 このパフォーマンスはオープンソースコミュニティ全体に衝撃を与えました。Stability AI の創設者である Emad Mostaque 氏も、R&D チームは本当に素晴らしいもので、その潜在能力は過小評価されていたと述べています。 これは、 DeepSeekチームによる最新のオープンソース 7B 数学モデル DeepSeekMath です。 7Bモデルは他を圧倒するDeepSeekMath の数学的機能を評価するため、研究チームは中国語(MGSM-zh、CMATH)と英語(GSM8K、MATH)のバイリンガル データセットをテストに使用しました。 補助ツールを使用せず、Chain of Thought (CoT)プロンプトのみに頼ることで、DeepSeekMath は 70B の大規模数学モデル MetaMATH を含む他のオープン ソース モデルよりも優れたパフォーマンスを発揮しました。 自社の67B汎用大型モデルと比較すると、DeepSeekMathのパフォーマンスも大幅に向上しました。 クローズドソースモデルを考慮すると、DeepSeekMath はいくつかのデータセットで Gemini Pro や GPT-3.5 を上回り、Chinese CMATH では GPT-4 を上回り、MATH でのパフォーマンスもそれに近いものとなっています。 しかし、漏洩した仕様によれば、GPT-4 は数千億のパラメータを持つ巨大なものであるのに対し、DeepSeekMath には 70 億のパラメータしかないことに注意する必要があります。 ツール(Python)の支援が許されれば、DeepSeekMath は競争難易度(MATH)データセットでパフォーマンスをさらに 7 パーセント ポイント向上させることができます。 では、DeepSeekMath の優れたパフォーマンスの背後にはどのようなテクノロジーが使われているのでしょうか? コードモデルに基づいて構築一般的なモデルから得られるよりも優れた数学的機能を得るために、研究チームはコード モデル DeepSeek-Coder-v1.5 を使用して初期化しました。 チームは、2 段階のトレーニングでも 1 段階のトレーニングでも、一般的なデータ トレーニングと比較して、コード トレーニングによってモデルの数学的能力を向上できることを発見したためです。 研究チームは Coder をベースに 5,000 億トークンのトレーニングを継続し、データの分布は次のようになりました。 トレーニング データに関しては、DeepSeekMath は Common Crawl から抽出した 120B の高品質な数学 Web ページ データを使用して DeepSeekMath Corpus を取得します。総データ量は、オープン ソース データセット OpenWebMath の 9 倍です。 データ収集プロセスは反復的に実行されました。4 回の反復を経て、研究チームは 3,500 万以上の数学 Web ページを収集し、トークンの数は 1,200 億に達しました。 トレーニングデータにテストセットの内容が含まれないようにするため(GSM8KとMATHの内容はインターネット上に大量に存在するため) 、研究チームは特別なフィルタリングも実行しました。 DeepSeekMath Corpus のデータ品質を検証するために、研究チームは MathPile などの複数のデータセットを使用して 1500 億のトークンをトレーニングしました。その結果、Corpus は複数の数学ベンチマークで大幅に優れたパフォーマンスを発揮することが示されました。 アライメント段階では、研究チームはまず、CoT、PoT、ツール統合推論の 3 つの形式を含む、776,000 サンプルの中国語 - 英語数学ガイド付き教師あり微調整(SFT)データセットを構築しました。 強化学習(RL)段階では、研究チームはグループ相対ポリシー最適化(GRPO)と呼ばれる効率的なアルゴリズムを使用しました。 GRPO は、従来の価値関数をグループベースの相対報酬推定に置き換えた近似ポリシー最適化(PPO)の変形であり、トレーニング中の計算とメモリの要件を削減できます。 同時に、GRPO は反復的なプロセスを通じてトレーニングされ、報酬モデルはポリシー モデルの出力に応じて継続的に更新され、戦略の継続的な改善が保証されます。 国内初のオープンソースMoEモデルを発表DeepSeekMath を立ち上げた DeepSeek チームは、中国におけるオープンソース モデルの分野におけるリーダー的存在です。 以前、チームは国内初のオープンソース MoE モデル DeepSeek MoE をリリースしました。その 7B バージョンは、同じサイズの高密度モデル Llama 2 を 40% の計算労力で上回りました。 一般的なモデルとして、DeepSeek MoE はコードと数学のタスクで非常に優れたパフォーマンスを発揮し、リソースの消費量も非常に少なくなります。 コード面では、チームが立ち上げた DeepSeek-Coder のプログラミング機能は、コード生成、ファイル間コード補完、数学問題のプログラム解決など、複数のタスクにおいて、同規模のオープンソース ベンチマーク CodeLllama の機能を上回っています。 同時に、GPT-3.5-Turbo も上回り、GPT-4-Turbo に最も近いオープンソース コード モデルとなりました。 先ほども述べたように、今回発売されたDeepSeekMathもCoderをベースに構築されています。 X では、すでに Coder と Math の MoE バージョンを楽しみにしている人もいます。 論文アドレス: https://arxiv.org/abs/2402.03300 |
<<: Google が TensorFlow-GNN 1.0 のリリースを正式に発表しました。大規模なグラフニューラルネットワークを構築するための動的かつインタラクティブなサンプリング
>>: Metaはギターロックとエレクトロニックミュージック向けの新しいオーディオ生成モデルMAGNeTをオープンソース化しました。これは自己回帰モデルよりも7倍高速です。
最近、Googleは、昨年発表した「PRADO」をさらに改良した小型モデルでSOTA結果を達成した新...
暑い夏がやって来ます。暑さをしのぐには、エアコンをつけてアイスを食べる以外に方法はないでしょうか?も...
生成型AI作成ロボットの登場以来、各界はロボットを使って記事や学術論文を書くようになりました。この状...
最近、天津大学の熊徳一教授のチームが大規模言語モデルアライメント技術に関するレビュー論文(以下、アラ...
執筆者 | Yun Zhao制作:51CTO テクノロジースタック(WeChat ID:blog)深...
サイバーセキュリティは重要な戦略的必須事項となっており、今日の企業は進化し続けるサイバー脅威から I...
編集者注: テクノロジーは、数学や物理学に関連する問題を解決する上で重要な役割を果たすことができます...
この記事の著者は、AI テクノロジーが私たちの生活にもたらす利便性と、それが持つ限界について、4 つ...
人工知能 (AI) が医療分野において大きなチャンスと潜在的なリスクを抱えていることはよく知られてい...
スマートな車両監視 近年、IoT テクノロジーによりテレマティクスはまったく新しいレベルに到達しまし...
米企業が人工知能に1億ドルを投資人工知能といえば、誰もが知っているものでしょう。AppleファンのS...
[[340820]] [51CTO.com クイック翻訳] 過去10年間、人工知能をめぐって大きな議...
[[204226]]今年4月、クアルコムのグローバル副社長兼クアルコムベンチャーズのマネージングデ...