GPT-4 パラメータに関する最新の情報! 1.76兆個のパラメータ、8220億個のMoEモデル、PyTorchの創設者は確信している

GPT-4 パラメータに関する最新の情報! 1.76兆個のパラメータ、8220億個のMoEモデル、PyTorchの創設者は確信している

皆さん、GPT-4 のパラメータは 1 兆を超える可能性があります。

最近、アメリカの有名なハッカーであるジョージ・ホッツ氏はインタビューで、GPT-4 は 8 つの 220B モデルで構成されていることを明らかにしました。

つまり、8 x 220B = 1.76兆です。

PyTorch の作成者である Soumith Chintala 氏もこれを信じています。

GPT-4: 異なるデータ/タスク分布と 16 反復推論でトレーニングされた 8 x 220B エキスパートモデル。

そうなると、GPT-4 のトレーニングの方が効果的かもしれません。

1兆7600億の「八つの頭を持つ蛇」？

GPT-4 がリリースされる前、GPT-3 には 1,750 億個のパラメータがあり、多くのネットユーザーは GPT-4 には少なくとも 1 兆個のパラメータがあるだろうと推測していました。

ジョージが Latent Space のインタビューを受けたとき、彼の GPT4 アーキテクチャの説明は本当に衝撃的でした。

以下は彼のオリジナルの言葉の一部です。

GPT-4 の各ヘッドには 2200 億個のパラメーターがあり、8 方向のハイブリッドモデルです。つまり、ハイブリッドモデルは、選択肢がなくなったときに使用するものなのです。 OpenAI は同じモデルを 8 回トレーニングしましたが、いくつかの秘策がありました。彼らは実際に 16 回の外挿を実行しました。

彼は特に、OpenAI が 8 倍の資金で誰でもトレーニングできる 8 つのハイブリッドエキスパートモデルを作成したと強調しました。

つまり、より小さなモデルを長期間にわたってトレーニングし、微調整することで、これらのトリックを見つけることができます。

OpenAI は、BatchNorm や NoBatchNorm など、計算量を変えずにトレーニングを向上させる同様のアルゴリズムを公開しています。

ネットユーザーからの熱いコメント

ジョージが言ったように、これらは 8 つの小さなモデルであり、8 つのハイブリッドモデルをトレーニングするのに十分な資金があれば、これは簡単な解決策です。

つまり、GPT-4 は GPT-3 の 10 倍優れているということですが、1 月の小さな円と大きな円のミームは実際には…本当なのでしょうか? ！

秘密を知ったネットユーザーは、GPT-4と競合するためにLLaMAアンサンブルを自ら訓練することを計画した。

一部のネットユーザーは、これは LLM-Blender に少し似ているとも言っています。

GPT-4 が MoE になるという、少し信憑性のある噂を長い間聞いていましたが、確認されたことはありません。 MoE と約 1 兆個のパラメータは私にとっては驚きではありません。非常に合理的に思えます。

一部のネットユーザーも詳細な分析を行った。

正直なところ、これが AI アーキテクチャの次のフェーズになると期待しています。タスク固有のモデルは、一般的なモデルよりもタスクに対してはるかに優れたパフォーマンスを発揮することがわかりました。

したがって、多くのタスク固有のモデルを組み合わせることが次の論理的なステップになります。これにより、システムのアップグレードがはるかに簡単になり、一度に 1 つのモデルのみで作業できるようになります。

そうは言っても、OpenAI がこれを実行した方法は、将来可能になるかどうかはわかりません。当然のことながら、統合システムでは、少数の大型モデルではなく、多数の小型モデルが存在する可能性が高くなります。

これが本当であれば、各 220B モデルのコンテキスト長も 32K になるということになりますか?

ネットユーザーは多大な努力を払い、それを「Hydra」と名付けました。

<<: 「成熟した」大型モデルが登場したときだけでしょうか? MIT: GPT-4はコードを自己修正できるが、GPT-3.5はできない

>>: OpenAIがズームイン！史上最強の「モデルストア」が立ち上げられ、すべてのChatGPTアプリケーションを接続する

JavaScript による機械学習の例 10 選

JavaScript による機械学習の例 10 選

ブログ

公共の安全を守るために都市に AI を導入するにはどうすればよいでしょうか?

公共の安全を守るために都市に AI を導入するにはどうすればよいでしょうか?

ブログ

ブログ

世界中のもう一人の自分と話すのはどんな感じでしょうか?世界初のAI人間観察者が誕生

世界中のもう一人の自分と話すのはどんな感じでしょうか?世界初のAI人間観察者が誕生

ブログ

Nvidia は Arm を買収して何をしたいのでしょうか?中国の承認後、クアルコムの影が再び現れる

Nvidia は Arm を買収して何をしたいのでしょうか?中国の承認後、クアルコムの影が再び現れる

ブログ

学問に戻りましょう！シュム氏は清華大学の非常勤教授として、コンピュータビジョンとグラフィックスの博士課程の学生を募集する。

学問に戻りましょう！シュム氏は清華大学の非常勤教授として、コンピュータビジョンとグラフィックスの博士課程の学生を募集する。

ブログ

手計算から数値モデルへの移行後、人工知能は産業生態系を変えるだろう

手計算から数値モデルへの移行後、人工知能は産業生態系を変えるだろう

ブログ

人工知能が企業発展の原動力となる

人工知能が企業発展の原動力となる

ブログ

ロボットが国連で初めて記者の質問に答える: ロボットは人間の仕事を奪ったり、人間に反抗したりはしない

ロボットが国連で初めて記者の質問に答える: ロボットは人間の仕事を奪ったり、人間に反抗したりはしない

ブログ

人間には知恵と愚かさの両方がある。AIが人間らしくなるためには愚かさも必要だろうか？

人間には知恵と愚かさの両方がある。AIが人間らしくなるためには愚かさも必要だろうか？

ブログ

推薦する

グラフィックで説明する 10 個のグラフアルゴリズム

例と視覚化による 10 個の基本的なグラフアルゴリズムの簡単な紹介グラフは、ソーシャルメディア ...

初心者必読！畳み込みニューラルネットワークの始め方

畳み込みニューラルネットワークは、ディープニューラルネットワークの中で非常に人気のあるネットワ...

保険会社、パンデミックによりAI自動化を導入

Star Health と ICICI Lombard は、医療保険契約者に対する請求の事前承認プロ...

AIガバナンスとは何か、どのように、そしてなぜ生まれるのか

AI は登場以来、タスクの自動化や業務の効率化、より優れたテクノロジーの構築、エンドユーザーエクス...

百度の于有平氏：すべての開発者が平等かつ便利にAI機能にアクセスできるようにする

「すべての開発者が平等かつ便利にAI機能にアクセスできるようにするのが、私たちのビジョンであり、コミ...

...

...

アダムとイブ: ディープラーニングの問題を解決するための強力なツール

[[242433]] [51CTO.com クイック翻訳] 近年、ディープラーニングの波がインターネ...

技術者でなくても、クラウドコンピューティング、ビッグデータ、人工知能を理解することができます。

今日は、クラウドコンピューティング、ビッグデータ、人工知能の 3 つのトピックについてお話しした...

ディープラーニングコンパイラについて知っておくべきこと

[[409589]]ディープラーニングはここ 10 年ほどで急速に発展し、業界では多くのディープラー...

「映画を見る」こと以外に、人工知能は医療の分野で何ができるのでしょうか?

6月26日に開催されたセコイア・グローバル・ヘルスケア産業サミットで、スタンフォード大学のフェイフ...

クロード3の「自己認識」事件が爆発、マスクはじっとしていられず、OpenAIにはバックアッププランがあることが明らかに

クロード3は発売されてから24時間以上経ちますが、今でも人々の認知をリフレッシュさせています。量子物...

速報です！ TensorFlow テクニカルディレクターの Pete Warden 氏は辞職し、博士号取得を目指してスタンフォード大学に戻りました。「Google では難しすぎた」からです。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

2020 年には、トップ 10 のトレンドテクノロジーを習得する必要があります。

変化だけが唯一不変です。これはあなたのキャリアにも当てはまります。テクノロジーが急速に進化していると...

JavaScript による機械学習の例 10 選

年を追うごとに、機械学習用のライブラリはより高速かつ使いやすくなっています。 Python は長い間...