GPT-4 モデル アーキテクチャが漏洩: 1.8 兆個のパラメータを含み、混合エキスパート モデルを使用

GPT-4 モデル アーキテクチャが漏洩: 1.8 兆個のパラメータを含み、混合エキスパート モデルを使用

7月13日、海外メディアSemianalysisは最近、今年3月にOpenAIが発表したGPT-4モデルを公開した。これにはGPT-4モデルのアーキテクチャ、トレーニングおよび推論インフラストラクチャ、パラメータ量、トレーニングデータセット、トークン数、コスト、専門家の混合などの具体的なパラメータと情報が含まれている

▲ 画像出典:セミアナリシス

海外メディアによると、 GPT-4には120層で合計1兆8000億のパラメータが含まれるが、GPT-3には約1750億のパラメータしかないという。コストを適正に保つために、OpenAI は建設に混合エキスパート モデルを使用します

IT ホーム 注記: Mixture of Experts はニューラル ネットワークです。システムはデータに基づいて複数のモデルを個別にトレーニングします。各モデルの出力後、システムはこれらのモデルを統合し、単一のタスクに出力します。

▲ 画像出典:セミアナリシス

GPT-4 は、それぞれ 1110 億のパラメータを持つ 16 人のエキスパートの混合を使用し、各フォワード パスは 2 つのエキスパート モデルを通過すると報告されています。

さらに、550億の共有注意パラメータがあり、13兆のトークンを含むデータセットを使用してトレーニングされます。トークンは一意ではなく、反復回数に応じてより多くのトークンとして計算されます。

GPT-4の事前トレーニング段階のコンテキスト長は8kで、32kバージョンは8kバージョンを微調整した結果です。トレーニングコストはかなり高くなっています。海外メディアによると、 8x H100も1秒あたり33.33トークンの速度で必要な密なパラメータモデルを提供できないとのことです。そのため、モデルのトレーニングには非常に高い推論コストがかかります。H100物理マシン1台あたり1時間あたり1ドルで計算すると、1回のトレーニングセッションのコストは6,300万ドル(約4億5,100万元)にもなります。

これを受けて、 OpenAIはクラウド上のA100 GPUトレーニングモデルを使用することを選択し、最終的なトレーニングコストを約2,150万ドル(約1億5,400万人民元)に抑え、少し時間がかかり、トレーニングコストも削減しました

<<:  海外メディア:マスク氏はxAIがOpenAIに勝つと夢想しているが、わずか11人の研究者に頼るのは難しすぎる

>>:  MIT の FrameDiff ツールがリリースされ、AI を使用してタンパク質構造を設計し、医療開発の促進に役立てられるようになりました。

ブログ    
ブログ    

推薦する

...

次世代産業用ロボットに対する人工知能(AI)の影響

[[389728]]大量生産される製品に対する需要が高まるにつれ、製品には高品質で信頼性が高く、より...

30分で独自のディープラーニングサーバーを作成する

新しいプロジェクトを始めるたびに、私はディープラーニング マシンを何度も何度も作成していることに気づ...

...

Nature: 光コンピューティングと AI 推論を統合して高速かつ高帯域幅の AI コンピューティングを実現

電子コンピューティングと比較すると、光コンピューティングは高速、高帯域幅、低消費電力という利点があり...

中国はビッグデータ、人工知能、遺伝子技術などに関する知的財産法制の整備を加速させる。

中国共産党中央委員会と国務院がこのほど発表した「知的財産強国建設要綱(2021~2035年)」では、...

ポスト絵読み時代、人工知能は絵の社会的ジレンマを解決できるのか?

ここ数年、国内の写真アプリが次々と登場しており、先頭にはDuitang、Huaban、Digu、Yo...

パーソナライズされた推奨事項は、馴染みのあるものに偏っていますか?アルゴリズムは公平性を侵害できない

北京日報によると、異なる消費者が同じ電子商取引プラットフォーム上で同じキーワードを使用して商品を検索...

機械学習がデータセンター管理をどう変えるか

機械学習はデータセンターの経済性を劇的に変え、将来の改善への道を開きます。機械学習と人工知能がデータ...

18年経った今、マイクロソフトの自然言語処理技術はどうなっているのでしょうか?

[51CTO.com からのオリジナル記事] 自然言語処理は、人工知能の開発において常に克服しなけ...

...

共感覚はAI労働者を刺激するために必要な条件

有名な作曲家スティーブン・シュワルツはピアノの鍵盤に色を見ました。伝説の歌手トーリ・エイモスは彼女の...

ロボットの時代、トラクターの背後にある1兆ドル市場

自動化農業の需要を満たすには、栽培者は栽培シーズンを通して作物の成長と健康に関する正確な情報を入手し...

この記事ではDiffアルゴリズムの使い方を説明します

[[420540]] 1. 基本Diff アルゴリズムは、仮想 DOM の最小限の更新を実装します。...

AIGCの6つの主なリスク

ChatGPTを運営するOpenAIのCEOサム・アルトマン氏は最近、議会公聴会で政府によるAIの規...