GPT-4 パラメータに関する最新の情報! 1.76兆個のパラメータ、8220億個のMoEモデル、PyTorchの創設者は確信している

GPT-4 パラメータに関する最新の情報! 1.76兆個のパラメータ、8220億個のMoEモデル、PyTorchの創設者は確信している

皆さん、GPT-4 のパラメータは 1 兆を超える可能性があります。

最近、アメリカの有名なハッカーであるジョージ・ホッツ氏はインタビューで、GPT-4 は 8 つの 220B モデルで構成されていることを明らかにしました。

つまり、8 x 220B = 1.76兆です。

PyTorch の作成者である Soumith Chintala 氏もこれを信じています。

GPT-4: 異なるデータ/タスク分布と 16 反復推論でトレーニングされた 8 x 220B エキスパート モデル。

そうなると、GPT-4 のトレーニングの方が効果的かもしれません。

1兆7600億の「八つの頭を持つ蛇」?

GPT-4 がリリースされる前、GPT-3 には 1,750 億個のパラメータがあり、多くのネットユーザーは GPT-4 には少なくとも 1 兆個のパラメータがあるだろうと推測していました。

ジョージが Latent Space のインタビューを受けたとき、彼の GPT4 アーキテクチャの説明は本当に衝撃的でした。

以下は彼のオリジナルの言葉の一部です。

GPT-4 の各ヘッドには 2200 億個のパラメーターがあり、8 方向のハイブリッド モデルです。つまり、ハイブリッド モデルは、選択肢がなくなったときに使用するものなのです。 OpenAI は同じモデルを 8 回トレーニングしましたが、いくつかの秘策がありました。彼らは実際に 16 回の外挿を実行しました。

彼は特に、OpenAI が 8 倍の資金で誰でもトレーニングできる 8 つのハイブリッド エキスパート モデルを作成したと強調しました。

つまり、より小さなモデルを長期間にわたってトレーニングし、微調整することで、これらのトリックを見つけることができます。

OpenAI は、BatchNorm や NoBatchNorm など、計算量を変えずにトレーニングを向上させる同様のアルゴリズムを公開しています。

ネットユーザーからの熱いコメント

ジョージが言ったように、これらは 8 つの小さなモデルであり、8 つのハイブリッド モデルをトレーニングするのに十分な資金があれば、これは簡単な解決策です。

つまり、GPT-4 は GPT-3 の 10 倍優れているということですが、1 月の小さな円と大きな円のミームは実際には…本当なのでしょうか? !

秘密を知ったネットユーザーは、GPT-4と競合するためにLLaMAアンサンブルを自ら訓練することを計画した。

一部のネットユーザーは、これは LLM-Blender に少し似ているとも言っています。

GPT-4 が MoE になるという、少し信憑性のある噂を長い間聞いていましたが、確認されたことはありません。 MoE と約 1 兆個のパラメータは私にとっては驚きではありません。非常に合理的に思えます。

一部のネットユーザーも詳細な分析を行った。

正直なところ、これが AI アーキテクチャの次のフェーズになると期待しています。タスク固有のモデルは、一般的なモデルよりもタスクに対してはるかに優れたパフォーマンスを発揮することがわかりました。

したがって、多くのタスク固有のモデルを組み合わせることが次の論理的なステップになります。これにより、システムのアップグレードがはるかに簡単になり、一度に 1 つのモデルのみで作業できるようになります。

そうは言っても、OpenAI がこれを実行した方法は、将来可能になるかどうかはわかりません。当然のことながら、統合システムでは、少数の大型モデルではなく、多数の小型モデルが存在する可能性が高くなります。

これが本当であれば、各 220B モデルのコンテキスト長も 32K になるということになりますか?

ネットユーザーは多大な努力を払い、それを「Hydra」と名付けました。

<<:  「成熟した」大型モデルが登場したときだけでしょうか? MIT: GPT-4はコードを自己修正できるが、GPT-3.5はできない

>>:  OpenAIがズームイン!史上最強の「モデルストア」が立ち上げられ、すべてのChatGPTアプリケーションを接続する

ブログ    
ブログ    
ブログ    

推薦する

アメリカの企業は単純なタスクを処理するためにAIを活用することに熱心だが、若者にはトレーニングや開発の機会が不足している

7月18日のニュース、Businessinsiderによると、米国の若い労働者はキャリア危機に直面し...

汎用人工知能は存在するのか?

現在、一部の学者は、汎用人工知能を研究したいと言っています。これは、機械翻訳、音声認識、画像の分類と...

...

2021年11月のドローン業界の最新動向を3分で振り返る

現在、人工知能や5Gなどの技術の助けを借りて、我が国のドローン開発は急速な成長の軌道に乗っています。...

ディープニューラルネットワーク (DNN) は人間の大脳皮質の構造をシミュレートしますか?

[[199788]]私は生物学を専攻する学部生であり、認知神経科学を専攻する大学院生です。余暇には...

AIと情報サービスが出会うとき:百度脳産業イノベーションフォーラムが成都であなたを待っています

注目の人工知能がインターネットの「伝統的なプロジェクト」情報サービスと出会うと、業界にどのような A...

...

人工知能が金融市場をどう変えるのか

多くの資産運用会社やヘッジファンドにとって、人工知能は成功にとって非常に重要であるため、彼らは新しい...

...

ドローンの違法飛行の新たな手口が出現:なぜそれを規制するのが難しいのか?

近年、民間ドローン産業が急速に発展し、さまざまなコストが大幅に削減されたため、民生用ドローンの普及が...

ブロックチェーンが人工知能に役立つ10の方法

ここでは、ブロックチェーンが AI を支援する 10 の方法と、それがもたらすメリットについて説明し...

35258 スター!これはITアーキテクトの技術知識マップのコレクションです

ソフトウェア アーキテクチャは、あらゆるソフトウェア プロジェクトの重要な部分になっています。アーキ...

看護ロボットは医療従事者の仕事に完全に取って代わることができるのでしょうか?

研究によると、共感と前向きな指導は、医師が患者の痛みを和らげ、術後の回復を早め、精神科薬の使用を減ら...

618プロモーション期間中のHuiceの加盟店向けサービスは新たな高みに達し、インテリジェントなアップグレードで明らかな優位性を獲得した。

ポスト疫病時代において、オンライン経済は本格化し、電子商取引業界は新たな発展段階に入りました。業界で...

PyTorch ガイド: ディープラーニング モデルのトレーニングを高速化する 17 のヒント!

PyTorch でディープラーニング モデルをトレーニングする場合、モデルのトレーニングを高速化す...