GPT-4 モデルアーキテクチャが漏洩: 1.8 兆個のパラメータを含み、混合エキスパートモデルを使用

7月13日、海外メディアSemianalysisは最近、今年3月にOpenAIが発表したGPT-4モデルを公開した。これにはGPT-4モデルのアーキテクチャ、トレーニングおよび推論インフラストラクチャ、パラメータ量、トレーニングデータセット、トークン数、コスト、専門家の混合などの具体的なパラメータと情報が含まれている。

▲ 画像出典：セミアナリシス

海外メディアによると、 GPT-4には120層で合計1兆8000億のパラメータが含まれるが、GPT-3には約1750億のパラメータしかないという。コストを適正に保つために、OpenAI は建設に混合エキスパートモデルを使用します。

IT ホーム注記: Mixture of Experts はニューラルネットワークです。システムはデータに基づいて複数のモデルを個別にトレーニングします。各モデルの出力後、システムはこれらのモデルを統合し、単一のタスクに出力します。

▲ 画像出典：セミアナリシス

GPT-4 は、それぞれ 1110 億のパラメータを持つ 16 人のエキスパートの混合を使用し、各フォワードパスは 2 つのエキスパートモデルを通過すると報告されています。

さらに、550億の共有注意パラメータがあり、13兆のトークンを含むデータセットを使用してトレーニングされます。トークンは一意ではなく、反復回数に応じてより多くのトークンとして計算されます。

GPT-4の事前トレーニング段階のコンテキスト長は8kで、32kバージョンは8kバージョンを微調整した結果です。トレーニングコストはかなり高くなっています。海外メディアによると、 8x H100も1秒あたり33.33トークンの速度で必要な密なパラメータモデルを提供できないとのことです。そのため、モデルのトレーニングには非常に高い推論コストがかかります。H100物理マシン1台あたり1時間あたり1ドルで計算すると、1回のトレーニングセッションのコストは6,300万ドル（約4億5,100万元）にもなります。

これを受けて、 OpenAIはクラウド上のA100 GPUトレーニングモデルを使用することを選択し、最終的なトレーニングコストを約2,150万ドル（約1億5,400万人民元）に抑え、少し時間がかかり、トレーニングコストも削減しました。

<<: 海外メディア：マスク氏はxAIがOpenAIに勝つと夢想しているが、わずか11人の研究者に頼るのは難しすぎる

>>: MIT の FrameDiff ツールがリリースされ、AI を使用してタンパク質構造を設計し、医療開発の促進に役立てられるようになりました。

ブログ

Nature: ハーバード大学とオックスフォード大学が最新のAIモデルを開発、3600万の致命的な遺伝子変異を予測

GPT-4 モデルアーキテクチャが漏洩: 1.8 兆個のパラメータを含み、混合エキスパートモデルを使用

Nature: ハーバード大学とオックスフォード大学が最新のAIモデルを開発、3600万の致命的な遺伝子変異を予測

アリババ・ダモ・アカデミーは、電力網の負荷を正確に予測するための新しい時系列予測モデルを提案している。

ファーウェイが「天才少年」の業績を初めて明らかに：彼は入社から1年も経たないうちにこの偉業を成し遂げた

C# 遺伝的アルゴリズム学習ノート

AIの偏見に対処するための重要なステップ

人工知能について知っておくべき4つのこと！

AI エージェントが GPT-4 と連携して人間のディレクターを排除します。「サウスパーク」はスタンフォード大学のウエストワールドを模倣して撮影された

推薦する

Facebook がひっそりと AI 技術ツールを開発: 自動的にコードをスキャンして脆弱性を発見

サイバーセキュリティにおいて人工知能はどのように活用されていますか?

第14次5カ年計画期間中、我が国のドローン産業の発展はますます明確になりました

AIは数学データベースの問題の82%を証明でき、Transformerをベースにした新しいSOTAが達成されました。

2022 年に AI はサイバーセキュリティ分野に何をもたらすでしょうか?

Google DeepMind の最新研究: 敵対的攻撃は人間に対しても有効であり、人間も AI も花瓶を猫と間違える!

マイクロソフトリサーチアジア、ウェイ・フル氏：人工知能における基礎イノベーションの第2次成長曲線

リチャード・サットン：経験はAIの究極のデータであり、4つの段階が真のAIの開発につながる

法律分野で初の「1対多」の人間と機械の競争が始まり、AI弁護士が契約書審査で人間を上回る

10行のコードで物体検出を実行する方法

2023 年のコンピューターサイエンスにおける 7 つの大きなブレークスルー! 「PとNP」は過去50年間の古典的な問題です。大規模なモデルがリストに大量に登場しています。

中国の教授が犯罪認識率97%の人工知能「検察官」を開発、現在テスト中

ChatGPTが企業の収益向上にどのように役立つか

RPA プロジェクトを社内で開発すべきでない理由