究極の「公開」: GPT-4 モデルのアーキテクチャ、トレーニングコスト、データセット情報がすべて公開されます

GPT-4 のモデルアーキテクチャ、インフラストラクチャ、トレーニングデータセット、コストなどの情報について、誰もが非常に興味を持っています。

残念ながら、OpenAI は口が堅すぎるため、長い間、誰もがこれらのデータについて推測することしかできませんでした。

少し前、George Hotz 氏は、Latent Space という AI テクノロジーのポッドキャストのインタビューで、GPT-4 は 8 つのハイブリッドエキスパートモデルで構成される統合システムであり、各モデルには 2,200 億のパラメーター (GPT-3 の 1,750 億のパラメーターよりわずかに多い) があり、これらのモデルはさまざまなデータとタスクの分布に合わせてトレーニングされていると、ちょっとしたニュースを明らかにしました。

このニュースは検証できないものの、広く流布しており、業界関係者の間では非常に合理的であると考えられている。

最近、さらに多くのニュースが漏れているようです。

本日、SemiAnalysis は有料サブスクリプションコンテンツをリリースし、GPT-4 に関する詳細情報を「公開」しました。

写真

記事によると、モデルアーキテクチャ、トレーニングインフラストラクチャ、推論インフラストラクチャ、パラメータ数、トレーニングデータセットの構成、トークン数、レイヤー数、並列戦略、マルチモーダル視覚適応、さまざまなエンジニアリングトレードオフの背後にある思考プロセス、独自の実装手法、巨大モデル推論に関連するボトルネックを軽減する方法など、多くのソースから GPT-4 に関する多くの情報を収集したとのことです。

著者らは、GPT-4 の最も興味深い点は、OpenAI が特定のアーキテクチャ上の決定を下した理由を理解することだと述べています。

さらに、記事ではA100上でのGPT-4のトレーニングと推論のコスト、次世代モデルアーキテクチャH100への拡張方法についても紹介しています。

私たちは、Deep Trading（アルゴリズム取引会社）の創設者であるYam Peleg氏のツイート（現在は削除済み）に基づいて、GPT-4に関する以下のデータをまとめました。興味のある読者は詳細を研究することができます。

写真

ただし、これは公式に確認されたデータではないため、正確性については各自で判断する必要があることに注意してください。

写真

1.パラメータ数：GPT-4のサイズはGPT-3の10倍以上です。記事によれば、120 層のネットワークには合計 1.8 兆個のパラメータがあるとのこと。

2.それはまさに混合エキスパートモデルです。 OpenAI は、専門家混合 (MoE) モデルを使用することでコストを適正に抑えることができました。彼らはモデルに 16 個のエキスパートモデルを使用しましたが、各モデルには約 111B 個のパラメータがありました。これらのエキスパートモデルのうち 2 つが各フォワードパスにルーティングされます。

3. MoE ルーティング: 各トークンをどのエキスパートモデルにルーティングするかを選択する高度なルーティングアルゴリズムについては文献で多くの議論がありますが、OpenAI は現在の GPT-4 モデルでかなり単純なルーティングアプローチを使用していると報告されています。このモデルは、注意計算に約 550 億個の共有パラメータを使用します。

写真

4.推論: 推論の各フォワードパス (1 トークンの生成) では、約 2,800 億個のパラメーターと約 560 TFLOP の計算のみが使用されます。比較すると、純粋に密なモデルでは、約 1.8 兆個のパラメーターと、フォワードパスごとに約 3700 TFLOP の計算が必要になります。

5.データセット: GPT-4 のトレーニングデータセットには約 13 兆個のトークンが含まれています。これらのトークンは繰り返し計算された結果であり、複数のエポックからのトークンがカウントされます。

エポック数: テキストベースのデータの場合は 2 エポック、コードベースのデータの場合は 4 エポックがトレーニングされました。さらに、ScaleAI および内部ソースからのデータを微調整する命令が何百万行もあります。

6. GPT-4 32K : 事前トレーニング段階では、GPT-4 は 8k のコンテキスト長 (seqlen) を使用しました。 GPT-4 の 32k シーケンス長バージョンは、事前トレーニング後に 8k バージョンを微調整することによって取得されます。

写真

7.バッチサイズ: コンピューティングクラスターでは、バッチサイズが数日かけて徐々に増加しました。最終的に、OpenAI は 6000 万のバッチサイズを使用しました。もちろん、すべてのエキスパートモデルがすべてのトークンを表示できるわけではないため、これは各エキスパートモデルによって処理される 750 万トークンのバッチサイズのみです。

実際のバッチサイズ: この数値をシーケンスの長さ (seq len) で割ると、実際のバッチサイズが算出されます。このような誤解を招く数字の使用はやめてください。

8.並列戦略: すべての A100 GPU で並列コンピューティングを実行するために、NVLink の限界である 8 方向テンソル並列処理を採用しました。さらに、15 ウェイのパイプライン並列処理も採用しました。 (ZeRo Stage 1 を使用する可能性が高く、ブロックレベルの FSDP を使用する可能性もあります)。

9.トレーニングコスト: OpenAI は GPT-4 のトレーニングに約 2.15e25 FLOPS を使用し、約 25,000 個の A100 GPU を使用し、90 ～ 100 日間トレーニングを行い、使用率 (MFU) は約 32% ～ 36% でした。この極端に低い使用率の理由の 1 つは、チェックポイントの再開を必要とする障害の数が多いことです。

クラウド内の A100 GPU 1 台あたりのコストが 1 時間あたり約 1 ドルだとすると、このトレーニングのコストだけで約 6,300 万ドルになります。 (現在、約 8,192 個の H100 GPU を使用した事前トレーニングには約 55 日かかり、コストは 2,150 万ドル、H100 GPU 1 個あたり 1 時間あたり 2 ドルの料金がかかります。)

10.エキスパート混合モデルを使用する場合のトレードオフ: エキスパート混合モデルを使用する場合、多くのトレードオフが存在します。

たとえば、トークン生成ごとにモデルのすべての部分が利用されるわけではないため、推論中に MoE を処理するのは非常に困難です。つまり、一部の部品が使用されている間、他の部品はアイドル状態になっている可能性があります。これは、ユーザーにサービスを提供する際のリソース使用率に重大な影響を与える可能性があります。研究者は、64 ～ 128 人の専門家を使用すると、16 人の専門家を使用するよりも損失が少なくなることを示していますが、これは単なる研究の結果です。

より少ないエキスパートモデルを選択する理由はいくつかあります。 OpenAI が 16 のエキスパートモデルを選択した主な理由の 1 つは、多くのタスクにおいて、エキスパートモデルの数が増えると一般化が難しくなり、収束が難しくなる可能性があるためです。

トレーニングの規模が大きいため、OpenAI はエキスパートモデルの数をより控えめにすることを選択しました。

写真

11.推論コスト: GPT-4 の推論コストは、1,750 億のパラメータを持つ Davinci モデルの 3 倍です。これは主に、GPT-4 でははるかに大きなクラスターが必要となり、使用率がはるかに低くなるためです。

推論に 128 個の A100 GPU を使用する場合、8k GPT-4 推論のコストは 1,000 トークンあたり 0.0049 セントと推定されます。推論に 128 個の H100 GPU を使用する場合、同じ 8k バージョンの GPT-4 推論のコストは 1,000 トークンあたり 0.0021 セントになります。これらの見積もりは、高い使用率と高いバッチサイズを前提としていることに注意してください。

12.マルチクエリアテンション: OpenAI も他の機関と同様に、マルチクエリアテンション (MQA) を使用しています。 MQA ではアテンションヘッドが 1 つだけ必要なので、KV キャッシュに使用されるメモリ容量を大幅に削減できます。それでも、シーケンス長が 32k の GPT-4 は 40GB の A100 GPU では確実に実行されず、シーケンス長が 8k のモデルは最大バッチサイズによって制限されます。

写真

13.連続バッチ処理: OpenAI は可変バッチサイズと連続バッチ処理を実装しました。これは、一定レベルの最大レイテンシを許可し、推論コストを最適化するために行われます。

14.視覚的マルチモダリティ: テキストエンコーダーから独立した視覚エンコーダーであり、両者の間には相互注意があります。アーキテクチャは Flamingo に似ています。これにより、GPT-4 の 1.8 兆個のパラメータに加えて、さらに多くのパラメータが追加されます。プレーンテキストで事前トレーニングした後、さらに約 2 兆個のトークンで微調整されました。

視覚モデルについては、OpenAI は当初ゼロからトレーニングするつもりでしたが、まだ成熟していなかったため、リスクを軽減するためにテキストでトレーニングを開始することにしました。

この視覚機能の主な目的の 1 つは、自律エージェントが Web ページを読み取り、画像やビデオのコンテンツを書き写せるようにすることです。

彼らがトレーニングに使用したデータの一部は、データ（レンダリングされた LaTeX/テキストを含む）、Web ページのスクリーンショット、YouTube ビデオ（サンプリングされたフレーム）の組み合わせであり、それらを Whisper に通して転記されたテキストを取得しました。

写真

15.投機的デコード: OpenAI は、GPT-4 の推論プロセスで投機的デコード技術を使用した可能性があります (100% かどうかは不明)。このアプローチでは、より小さく高速なモデルを使用して複数のトークンを事前にデコードし、それらを単一のバッチとして大規模な予測モデル (オラクルモデル) に入力します。

小さなモデルの予測が正しければ、大きなモデルもそれに同意し、1 つのバッチで複数のトークンをデコードできます。

ただし、ドラフトモデルによって予測されたトークンを大規模モデルが拒否した場合、バッチの残りは破棄され、大規模モデルを使用してデコードを続行します。

新しい GPT-4 の品質が低下したという陰謀説がありますが、これは単に、推測的デコードモデルが予測モデルに低い確率のシーケンスを渡すようにしたために、この誤解につながったと考えられます。

写真

16.推論アーキテクチャ: 推論は 128 個の GPU のクラスター上で実行されます。このようなクラスターは、さまざまな場所にある複数のデータセンターに複数存在します。推論プロセスでは、8 方向のテンソル並列処理と 16 方向のパイプライン並列処理が使用されます。 8 つの GPU で構成される各ノードには、約 1,300 億個のパラメーターしかありません。

モデルには 120 のレイヤーがあるため、15 個の異なるノードに収まります。最初のノードでは埋め込みも計算する必要があるため、レイヤー数が少なくなる場合があります。

これらの数字に基づくと、OpenAI がチンチラに最適なメトリックをトレーニングしようとした場合、現在の 2 倍のトークンを使用する必要があったことになります。これは、高品質のデータを入手するのに苦労していることを示唆しています。

最後に、これはこれまでで最も詳細な GPT-4 に関するデータ開示になるはずだと言いたい。それが真実かどうかは検証できませんが、研究する価値はあります。原作者はこう述べています。「興味深いのは、OpenAI がなぜ特定のアーキテクチャ上の決定を下したのかを理解することです。 」

GPT-4 に関するこのアーキテクチャ情報についてどう思いますか?

>>: ウェアラブル AI が IoT に与える影響

究極の「公開」: GPT-4 モデルのアーキテクチャ、トレーニングコスト、データセット情報がすべて公開されます

ディープラーニングモデルアーキテクチャを視覚化する6つの一般的な方法の概要

GPT-4 コードインタープリターのベンチマーク！ CUHKはモデルに数学の問題を解くコードを書かせ、そのスコアはGPT-4を上回る

ドローン自動化システムの産業への応用を探る

MITの研究者らが、致命的な出血を止めるためにAIを活用するハンドヘルドロボットを開発

米国の専門家：中国のロボット優位性が懸念される

メタは商業用人工知能に注力するためタンパク質折り畳みチームを解散すると報道

今年の主要リリース: 人工知能開発レポート 2020

推薦する

ICLR2021 対照学習 NLP 論文進捗レビュー

プロのアニメーターがGANを使って「怠け者」を助ければ、数週間かかる仕事を数分で終わらせられる

人工知能を扱うなら必ず知っておくべき音声認識技術の原理

ライブ放送週レビュー日記1日目: 価値の再形成の力についての洞察、機会と課題が目の前にあります

コンピュータビジョンプロジェクト: 10 個の高品質オープンソースデータセットがリリースされました

2021 年のトップ 10 機械学習ライブラリ

2年後には「ロボット」が人間の活動の80％以上をこなすようになるのでしょうか？ AIに関する専門家の見解を聞く

OpenAI の公式プロンプト単語ガイドよりも包括的な 26 の黄金律により、LLM のパフォーマンスが 50% 以上向上します。

RL エージェントはオンラインでしかトレーニングできないと誰が言ったのでしょうか? Google がオフライン強化学習の新しいパラダイムを発表

言葉はもっと欺瞞的だ！ MITの最新研究：DeepFakeによる顔の加工はペンを使った編集ほど良くない