700億Llama2が即完売!申請不要で商用利用も無料という国産最新大型モデルが発表された。その背後にあるのはプライベートエクイティ大手企業

700億Llama2が即完売!申請不要で商用利用も無料という国産最新大型モデルが発表された。その背後にあるのはプライベートエクイティ大手企業

国内の大型モデルに新たなプレーヤーが登場しました。

670億のパラメータを持つDeepSeek。

中国語と英語の公開評価リスト約20件で700億回の視聴回数を記録し、同レベルのLlama 2を直接上回りました。

特に優れているのは推論力、数学力、コーディング能力です。

写真

数学的能力に関しては、グロクが参加したばかりの今年のハンガリーの最新の高校数学テストで65点を獲得した。

写真

当時Grokが発表したスコア59点やGPT-4の68点と比較すると、抜群の性能です。

DeepSeek は、リリース時にオープンソースに重点を置いています。

70億と670億の2つのパラメータバージョンが含まれています。各バージョンには、基本モデルと命令微調整モデルが含まれています。申請なしで無料で商用利用可能です。

同時に、完全な内部テストもオープンしており、登録するだけでプレイ可能です。

写真

P.S. DeepSeek の中国語機能は GPT-3.5 よりも優れており、中国語でテストできます。

写真

Twitter では、DeepSeek は多くの技術者の注目を集めました。

初期にテストした人たちは何も問題はないと言っていました。

写真

他の人たちは、数学とコーディングにおけるオープンソースのLLMの欠点を補ったとしてDeepSeekを賞賛した。

写真

では、DeepSeek はどのようにトレーニングされるのでしょうか?

Llamaと同じアーキテクチャ

DeepSeek は、Llama と同じアーキテクチャ、つまり自己回帰 Transformer デコーダー アーキテクチャを使用します。

70 億パラメータ バージョンではマルチヘッド アテンションを使用し、670 億パラメータ バージョンではグループ クエリ アテンションを使用します。

事前トレーニングは、2兆個の中国語と英語のトークン(シーケンス長4096)とAdamWオプティマイザーを含むデータセットで実行されます。

70 億パラメータ バージョンのモデルのトレーニング バッチ サイズは 2304 で、学習率は 4.2e-4 です。670 億パラメータ バージョンのモデルのバッチ サイズは 4608 で、学習率は 3.2e-4 です。

DeepSeek のトレーニング プロセスでは、具体的には、複数ステップの学習率スケジュールを使用します。

最初は2,000の予測ステップから始まり、1.6兆トークンで徐々に最大値の31.6%に達し、1.8兆トークンで徐々に最大値の10%に達します。

それを見たネットユーザーの中には、こう言う人もいた。

1.6 兆トークンから始まるこの学習率冷却フェーズは、「Scaling Vision Transformers」論文の LR プランアブレーション操作に多少似ています。

これは、Llama のコサイン学習率減衰 (先のステップ数を指定する必要がある) とはまったく異なり、非常に興味深いものです。

写真

次の図は、著者が公開した DeepSeek トレーニング損失曲線といくつかのベンチマークの曲線です。

写真

優れた数学とコーディングスキル

DeepSeek が実施したテスト結果の次の 3 つのカテゴリに焦点を当てます。

1つは、今年5月に発表されたばかりの2023年ハンガリー高校数学テスト問題です。

DeepSeek は、GSM8k と MATH という 2 つの標準ベンチマークで良好な結果を達成しましたが、

写真

しかし、これらのデータセットを過剰適合するリスクがあるため、著者らは数学のサンプル外一般化機能を評価することにしました。

下の図に示すように、右上隅の 670 億パラメータの DeepSeek は、最終的にサンプル内数学能力 (縦軸 GSM8K) では Claude 2 と GPT-4 に次ぐ 3 位にランクされましたが、サンプル外数学能力 (横軸 Exam Score) では GPT-4 に次ぐ 2 位にランクされました。

写真

2 つ目は、DeepSeek のコマンド追従能力のテストです。

ここで著者は、11月15日にGoogleがリリースしたばかりの指示追従評価セットを使用して、モデルの「従順さ」を評価しました。

この結果は多くのオープンソース モデルを上回っていますが、スコア 59.1 は依然として GPT-4 より 20 ポイント低いです。

写真

最後にコーディング能力テストがあります。

同様に、著者はここでサンプル外の能力に焦点を当て、今年 7 月 2 日から 11 月 12 日までの LeetCode の最新の実際の質問をテスト用に選択しました。

この結果は、中国で一般的に使用されている大規模モデルよりもはるかに優れており、GPT 3.5 をはるかに上回っています。

写真

その背後にある会社は誰ですか?

検索してみると、DeepSeek の背後にある会社は DeepSeek という会社であることがわかりました。基地は北京にあり、今年5月に正式に設立されました。

目標は単なる大きなモデルではなく、AGI です。

同社は11月初旬に大規模コードモデル「DeepSeek Coder」をリリースした。

これまでの最高のオープンソース大規模モデル CodeLlama と比較すると、DeepSeek Coder はコード生成タスクでそれぞれ 9.3%、10.8%、5.9% リードしています (標準データセット HumanEval、MBPP、DS-1000 を使用して評価)。

写真

Deepin Quest は、実は有名なプライベートエクイティ大手 Huanfang からスピンオフした独立企業であることは特筆に値します。

Huanfangという会社はAIとは何の関係もないように思えますが、実は2019年に自社開発のディープラーニングトレーニングプラットフォーム「Firefly No.1」をリリースしました。

プロジェクトの総投資額は2億元近くで、合計1,100基のGPUが搭載されるとのこと。

その後、「Firefly 1」は「Firefly 2」へとバージョンアップし、搭載されるGPUの数も約1万個に達した。

参考リンク:
[1] https://mp.weixin.qq.com/s/Zj7gPGqJ8UTTxp1umfWjKQ [2] https://twitter.com/johannes_hage/status/1730075189428494842
[3] https://twitter.com/jeremyphoward/status/1730113946345205970
[4] https://twitter.com/bindureddy/status/1730248977499762740
[5]https://zhuanlan.zhihu.com/p/636451367

<<:  Tik Tok ダンスでは、実際の人物がカメラに映る必要はなく、1 枚の写真だけで高品質のビデオを生成できます。バイトダンスの新技術をCTOと一緒に体験する機会も

>>:  大規模モデルにより、微調整なしでダイアログ機能が解放され、RLHF は不要になります。第一著者:上海交通大学卒業生:コストと時間を大幅に節約

ブログ    
ブログ    

推薦する

日常生活におけるAIの優れた活用例

人工知能は、テクノロジーやビジネスの世界で広く議論されている人気のテクノロジーの 1 つです。 さま...

AI と新しい小売業が出会ったとき、両者は力を合わせて無敵になれるのでしょうか?

[51CTO.com オリジナル記事] 2018 年に最も人気のある 2 つの単語はどれでしょうか...

Cloudera は研究から実稼働までエンタープライズ機械学習を加速します

クラウド向けに最適化された機械学習および分析のための最新プラットフォームを提供する Cloudera...

ハリウッドのAIに対する攻撃は、AIの脚本の最新エピソードに書かれていた

今日まで、『ゲーム・オブ・スローンズ』の最終シーズンに失望していたかもしれません。しかし、AI にま...

Google のロボット工学プログラムは度重なる失敗からどのような教訓を得たのでしょうか?

Google は再びロボットの製造を開始する予定です。 。 。このニュースを伝えたとき、私は Go...

OpenAIと競合しますか? Jina AI、オープンソースの8Kテキスト埋め込みモデルを発表

10月27日、外国メディアは、人工知能企業Jina AIがこのほど、第2世代のテキスト埋め込みモデル...

...

...

...

海外AI界が騒然! Googleの黒人女性AI倫理研究者が「退職」し騒動を引き起こす

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

...

マッキンゼーのレポート:これらの業界が人工知能に転換しなければ、ますます取り残されることになる

最近、マッキンゼーは「人工知能:次のデジタルフロンティア?」と題した80ページのレポートを発表し、人...

人工知能は企業で実用化されつつある

AI は、従来のプロセスや従来のテクノロジーにまき散らされた魔法の精霊ではなく、ビジネスのやり方を根...

マイクロソフトは財務部門向けに特化されたAIツールをカスタマイズ

3月1日木曜日の米国時間のニュースで、マイクロソフトは企業顧客の財務部門向けの人工知能ツールを披露し...

...