GPT-4は次のようになると予測する人もいる。GPT-3より少し大きく、純粋なテキストで、最適な計算と配置に重点を置く。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

Google は最近、最新世代の人工知能アーキテクチャ Pathways に基づいて開発された 5,400 億のパラメータモデルである PaLM をリリースしました。因果関係のマーキング、コンテキストの理解、推論、コード生成など、多くの機能を備えています。その中でも、常識推論能力は以前の言語モデルと比較して大幅に向上しています。

しかし同時に、PaLM の計算コストがいつものように 6144 個の TPU が使用されていることにも誰もが気づきました。トレーニング用にグラフィックカードをレンタルする場合、最大コストは 1,700 万ドル (1 億人民元以上、「小さな目標」) に達する可能性があります。

明らかに、これは非常に高価であり、「経済的実現可能性」の原則に準拠していません。業界の人々が、長い間、大型モデルに悩まされてきたとよく不満を漏らすのも不思議ではありません。

このモデルが成長し続け、お金が使われ続けるとしたら、いつ終わるのでしょうか?一部の学者はAI Technology Reviewに対し、PaLMのような大規模モデルは確かに成果において大きな進歩を遂げているが、トレーニングとコンピューティングのコストは非常に高く、多くのタスクをまとめる必要はないと語った。

GPT シリーズは、大規模モデルの将来の開発に新たな洞察をもたらす可能性があります。

最近、Cambrian AIのアナリストであるAlberto Romero氏は、OpenAIのCEOであるSam Altman氏が数か月前に述べたことに基づいて、GPT-4が今年の7月か8月にリリースされると推測する記事を発表しました。彼はまた、昨年のAltman氏による質疑応答セッションに基づいて、GPT-4の特徴を予測しました。

確かなのは、アルトマン氏が、GPT-4 のパラメータは 100T には達しないだろうと述べたことです。

また、アルベルト・ロメロ氏は、GPT-4 はおそらく GPT-3 よりもわずかに大きくなるだろうが、GPT-3 の場合のように「大きい」ことが GPT-4 の「セールスポイント」になることはないだろうと推測しました。代わりに、OpenAI は、より小さなモデルのパフォーマンスを向上させる方法に重点を置いています。

1 予測1: GPT-4はそれほど大きくならない

まず、Alberto 氏は GPT-4 が最大の言語モデルにはならないと判断しました。アルトマン氏はまた、GPT-3 よりそれほど大きくはならないとも述べた。以前の世代のニューラルネットワークと比較すると、GPT-4 は確かに大きくなりますが、サイズがその特徴となるわけではありません。 GPT-4 は、GPT-3 と Gopher (175B-280B) の中間に位置すると考えられます。

アルベルト氏はその後、その予測の理由を次のように述べた。

昨年NvidiaとMicrosoftが開発したMegatron-Turing NLGは、530Bのパラメータを持ち、サイズが540BのGoogleのPaLMが最近登場するまで、最大の高密度ニューラルネットワーク（GPT-3の3倍のサイズ）となっていました。しかし、MT-NLG 以降のいくつかの小型モデルがより高いパフォーマンスレベルを達成したことは注目に値します。

言い換えれば、大きい≠良いということです。小型モデルの存在には2つの意味があります。

1 つは、モデルのサイズを大きくすることがパフォーマンスを向上させる唯一の方法ではなく、最善の方法でもないことに企業が気づいたことです。 2020年、OpenAIのJared Kaplan氏とその同僚は、増加した計算予算が主にパラメータ数の増加に割り当てられた場合、パフォーマンスの向上が最も顕著であり、べき乗関係に従うという結論に達しました。 Google、Nvidia、Microsoft、OpenAI、DeepMind、その他言語モデルを開発している企業は、ガイドラインを額面通りに受け入れています。

論文アドレス: https://arxiv.org/pdf/2001.08361.pdf

MT-NLG は規模が大きいですが、パフォーマンスの面では最適ではありません。実際のところ、どのカテゴリーのベンチマークでも最高というわけではありません。 Gopher (280B) や Chinchilla (70B) などの小型モデルは、サイズがほんのわずかであっても、このタスクでは MT-NLG よりもはるかに優れたパフォーマンスを発揮します。

2 つ目の意味は、企業が「大きいほど良い」という教義を拒否し始めているということです。パラメータを追加するのは簡単ですが、パラメータを増やすことはパフォーマンスを向上できる多くの方法の 1 つに過ぎず、付随的な損害 (二酸化炭素排出量、計算コスト、行き止まりなど) を考えると、最悪の方法の 1 つとなります。企業が小規模なモデルから同様の結果、あるいはより優れた結果を得ることができる場合、大規模なモデルを構築する前によく考えるようになります。

アルトマン氏は、同社はもはや非常に大きなモデルを作ることに注力しておらず、より小さなモデルを最大限に活用することに取り組んでいると述べた。 OpenAI の研究者たちはスケーリング仮説を早くから提唱していたが、今では他の未開拓の道筋によってモデルを改善できることに気づいたのかもしれない。

Alberto 氏は、GPT-4 を大きくするのではなく、OpenAI がデータ、アルゴリズム、パラメーター化、アライメントなど、モデルを大幅に改善できる他の側面に重点を移すだろうと信じているようです。

2 予測2: GPT-4は「最適」なものを見つけようとする

言語モデルは、最適化に関しては重大な問題を抱えています。トレーニングには多額の費用がかかるため、企業は精度とコストの間で妥協を強いられます。この選択により、明らかに最適化されていないモデルが生成されることがよくあります。

GPT-3 は一度しかトレーニングされていないため、まだいくつかのエラーがあり、場合によっては再トレーニングが必要になる可能性があります。 OpenAI は、最適化はコストがかかりすぎて手が届かないため、最適化を実行しないことに決めました。これにより、研究者はモデルに最適なハイパーパラメータセット (学習率、バッチサイズ、シーケンスの長さなど) を見つけることができませんでした。

トレーニングコストが高いことによるもう 1 つの結果は、モデルの動作の分析が制限されることです。カプラン氏のチームは、モデルのサイズがパフォーマンスの向上に最も関連する変数であると結論付けたとき、トレーニングトークンの数、つまりモデルに入力されるデータの量を考慮に入れていませんでした。そうするには、かなりの量のコンピューティングリソースが必要になります。

テクノロジー企業は、カプランの結論が自社が知る最良のアイデアであるため、それに従います。皮肉なことに、経済的な制約のせいで、Google、Microsoft、Facebook などの企業は、ますます大型化するモデルに何百万ドルも「無駄遣い」し、その過程で大量の汚染を生み出しているのです。

現在、DeepMind と OpenAI が率いる企業は他のアプローチを模索しています。彼らは、単に大きなモデルではなく、最適なモデルを見つけようとします。

最適なパラメータ化

先月、マイクロソフトと OpenAI は、最適なハイパーパラメータを使用してモデルをトレーニングすれば GPT-3 をさらに改善できることを実証しました。彼らは、GPT-3 の 6.7B バージョンのパフォーマンスが大幅に向上し、GPT-3 の元の 13B バージョンに匹敵することを発見しました。ハイパーパラメータの調整 (大規模なモデルでは実現不可能) により、パラメータの数を 2 倍にした場合と同等のパフォーマンス向上が得られました。

彼らは、小規模なモデルに最適なハイパーパラメータが同等の大規模モデルにも当てはまる新しいパラメータ化 (μP) を発見しました。 μP を使用すると、トレーニングコストのほんの一部で、あらゆるサイズのモデルを最適化できます。これらのハイパーパラメータは、ほとんどコストをかけずに、より大きなモデルに転送できます。

最適計算モデル

数週間前、DeepMind は Kaplan の調査結果を再検討し、一般的な考えに反して、トレーニングトークンの数がモデルのサイズと同じくらいパフォーマンスに影響を与えることを認識しました。彼らは、より多くの計算予算が利用可能になるにつれて、それをスケーラブルなパラメータとデータの間で均等に割り当てる必要があると結論付けました。彼らは、GPT-3 以降のすべての大規模言語モデルの 4 倍のデータ (通常 300B から 1.4T トークン) を使用して、70B モデル (旧 SOTA、Gopher の 4 分の 1) である Chinchilla をトレーニングすることで仮説を証明しました。

結果は明らかです。 Chinchilla は、多くの言語ベンチマークにおいて Gopher、GPT-3、MT-NLG、その他すべての言語モデルを「一貫して大幅に」上回っていますが、現在のモデルはオーバースケーリングとトレーニング不足に悩まされています。

DeepMind の調査結果によると、GPT-4 は GPT-3 よりわずかに大きくなることを考慮すると、GPT-4 が計算最適化を達成するために必要なトレーニングトークンの数は約 5 兆となり、現在のデータセットよりも桁違いに多くなります。最小のトレーニング損失に達するためにモデルをトレーニングするために必要な失敗の数は、GPT-3 を使用する場合（代わりに Gopher の計算予算を使用）よりも 10 ～ 20 倍多くなります。

これはおそらく、アルトマン氏が質疑応答で「GPT-4 は GPT-3 よりも多くの計算を使用する」と述べたときに言及していたことだろう。

OpenAI は間違いなく GPT-4 の最適化を調査するだろうが、予算が不明であるため、どの程度まで調査するかは予測できない。 OpenAI がモデルサイズ以外の変数の最適化に重点を置くことは間違いないでしょう。最適なハイパーパラメータのセット、最適な計算モデルのサイズ、パラメータの数を見つけることで、すべてのベンチマークで驚くべき改善が実現します。これらの方法を 1 つのモデルに組み合わせると、モデルはすべての予測において想像を絶する高さに到達します。

アルトマン氏はまた、モデルを大きくしなければ、人々はそのモデルの素晴らしさを信じないだろうとも述べた。おそらく、モデルのサイズを大きくする作業が完了したということを意味していたのでしょう。

3 予測3: GPT-4はテキストのみのモデルになる

ディープラーニングの未来はマルチモーダルモデルです。私たちはマルチモーダルな世界に住んでいるため、人間の脳には複数の感覚があります。一度に 1 つのモードでのみ世界を認識すると、AI が世界を処理または理解する能力が大幅に制限されます。

しかし、優れたマルチモーダルモデルを見つけるのは、優れた言語のみのモデルや視覚のみのモデルを見つけるよりもはるかに困難です。視覚情報とテキスト情報を 1 つの表現に組み合わせることは、困難な作業です。脳がこれをどのように行うかについての私たちの理解は非常に限られているため（ディープラーニングコミュニティが脳の構造と機能に関する認知科学の洞察を考慮に入れているわけではない）、それをニューラルネットワークに実装する方法はわかりません。

アルトマン氏は質疑応答で、GPT-4はマルチモーダル（DALLEやLaMDAなど）ではなく、テキストのみのモデルになると述べた。したがって、アルベルト氏の推測では、次世代のマルチモーダル AI に移行する前に、モデルやデータセットのサイズなどの要素を微調整して、言語モデルの限界に到達しようとしているとのことです。

4 予測4: GPT-4は高密度モデルになる

スパースモデルは条件付き計算を活用し、モデルのさまざまな部分を使用してさまざまな種類の入力を処理します。スパースモデルは最近大きな成功を収めており、高い計算コストをかけずに 1T を超えるパラメータートークンに簡単に拡張できるため、モデルサイズと計算予算の間に一見直交関係が生まれます。ただし、MoE アプローチの利点は、非常に大規模なモデルではそれほど顕著ではありません。

OpenAI が高密度言語モデルに重点を置いてきた歴史を考えると、GPT-4 もおそらく高密度モデルになるだろうと Alberto 氏は考えています。また、アルトマン氏は、GPT-4 は GPT-3 よりそれほど大きくならないだろうと述べているため、少なくとも現時点では、スパース性は OpenAI の選択肢ではないと結論付けることができます。

AI のインスピレーションの源である人間の脳は、スパース処理に大きく依存しています。マルチモーダル性と同様に、スパース性はニューラルネットワークの将来の世代を支配する可能性があります。

5 予測5: GPT-4はGPT-3よりも整合がとれる

OpenAI は、AI アライメント問題、つまり言語モデルを私たちの意図に従わせ、私たちの価値観に沿わせる方法 (それが何を意味するにせよ) の解決に多大な労力を費やしてきました。これは数学的な問題（例えば、AIに私たちが何を望んでいるのかを正確に理解させるにはどうすればよいか）であるだけでなく、哲学的な問題でもあります（例えば、人間の価値観はグループによって大きく異なり、しばしば互いに衝突するため、AIを人間と一致させる普遍的な方法は存在しない）。

彼らは、人間のフィードバックを通じて指示に従うことを学習する新しい GPT-3 である InstructGPT を使用して最初の試みを行いました (それらの指示が善意によるものか悪意によるものかはモデルに組み込まれませんでした)。

InstructGPT の主な画期的な点は、言語ベンチマークの結果に関係なく、人間のレビュー担当者によってより優れたモデルであると判断されたことです (これらのレビュー担当者は OpenAI の従業員と英語話者の同質のグループであったため、導き出された結論については慎重になる必要があります)。これは、AI の能力を評価するための唯一の指標としてベンチマークを使用することを克服する必要性を強調しています。人間がこれらのモデルをどのように認識するかは、同様に、あるいはそれ以上に重要かもしれません。

Altman 氏と OpenAI が有益な AGI として維持しなければならない約束を考えると、GPT-4 は InstructGPT からの発見を実装し、それに基づいて構築されると信じています。

現在、このモデルのラベル作成は OpenAI の従業員と英語を話す人に限定されているため、モデルの調整方法は改善されると思います。真の連携には、あらゆる性別、人種、国籍、宗教などのグループが含まれるべきです。これは大きな挑戦であり、この目標に向けたあらゆる一歩は歓迎されるでしょう。

6 結論

モデルサイズ: GPT-4 は GPT-3 よりも大きくなりますが、現在の最大モデル (MT-NLG 530B および PaLM 540B) と比べるとそれほど大きくはありません。モデルのサイズは重要な特徴ではありません。

最適性: GPT-4 は GPT-3 よりも多くの計算を使用します。 GPT-4 により、パラメータ化 (最適なハイパーパラメータ) とスケーリング法則 (トレーニングトークンの数はモデルサイズと同じくらい重要) に関する新たな最適化の洞察が可能になります。

マルチモーダル: GPT-4 はマルチモーダルモデルではなく、テキストのみのモデルになります。 OpenAI は、DALLE のようなマルチモーダルモデルに完全に移行する前に、言語モデルを最大限に活用したいと考えています。

スパース性: GPT-2 と GPT-3 の傾向に従い、GPT-4 は密なモデルになります (すべてのパラメーターが任意の入力を処理するために使用されます)。将来的には希少性がさらに重要になるでしょう。

アライメント: GPT-4 は GPT-3 よりもアライメントが高く、人間のフィードバックに基づいてトレーニングされた InstructGPT から学習します。しかし、AI の調整にはまだ長い道のりが残っており、誇張するのではなく、行われた作業を慎重に評価する必要があります。

どう思いますか？

<<: アメリカの人工知能の簡単な分析

>>: すべてがAI+になる新しい形の人工知能があなたを待っています

MIT、思考制御によるロボットのミスを防ぐ新しいインターフェースシステムを開発

ブログ

AIが3Aの傑作をプレイ、OpenAIは調査されるか？ 2023年のAIパノラマレポートが10の予測を発表

ブログ

クック氏が自動運転をレベル2にまで引き下げたことで、Appleの10年来の自動車製造の夢は再び打ち砕かれた。プロトタイプ車の開発に数十億ドルが費やされ、中止され2028年に延期された。

ブログ

LangChain、RStudio、Enough Python を使って人工知能を構築する方法

ブログ

2019年、人工知能業界は再び冬を迎えたのでしょうか？ここで３つの話をしたいと思います。

ブログ

GPT-4は次のようになると予測する人もいる。GPT-3より少し大きく、純粋なテキストで、最適な計算と配置に重点を置く。

1 予測1: GPT-4はそれほど大きくならない

2 予測2: GPT-4は「最適」なものを見つけようとする

最適なパラメータ化

最適計算モデル

3 予測3: GPT-4はテキストのみのモデルになる

4 予測4: GPT-4は高密度モデルになる

5 予測5: GPT-4はGPT-3よりも整合がとれる

6 結論

MIT、思考制御によるロボットのミスを防ぐ新しいインターフェースシステムを開発

AIが3Aの傑作をプレイ、OpenAIは調査されるか？ 2023年のAIパノラマレポートが10の予測を発表

クック氏が自動運転をレベル2にまで引き下げたことで、Appleの10年来の自動車製造の夢は再び打ち砕かれた。プロトタイプ車の開発に数十億ドルが費やされ、中止され2028年に延期された。

LangChain、RStudio、Enough Python を使って人工知能を構築する方法

2019年、人工知能業界は再び冬を迎えたのでしょうか？ここで３つの話をしたいと思います。

推薦する

IoTセキュリティ戦略における機械学習の重要性

遅めのエクスタシー！動画の動きがどんなに大きくても、写真はスムーズに主役の代わりを務めることができる｜Meta & シンガポール国立大学

エッジコンピューティングが企業のコスト削減と効率向上にどのように役立つか

百度技術委員会の呉華委員長：NLP技術は機械に人間の言語によるコミュニケーション能力を持たせるはずだ

JSPフォーラムツリー構造を実装するための特定のアルゴリズム

世界の半導体サプライチェーンにおけるリスクを排除するにはどうすればよいでしょうか?

強化学習 AI は 1 対 5 の戦いに役立ちますか? MITの新研究：AIは人間にとって最高のチームメイトではない

ジェネレーティブAIは伝統的な医師と患者の関係を破壊している

「ビッグモデルは基本的に2つのファイルです！」テスラの元AIディレクターが一般向けに1時間にわたるLLMポピュラーサイエンスを披露

顔認証の過去と現在の徹底分析

ソラのトレーニングデータが流出した疑い、ネットユーザー「UE5が間違いなく使われている」