GPT-4は次のようになると予測する人もいる。GPT-3より少し大きく、純粋なテキストで、最適な計算と配置に重点を置く。

GPT-4は次のようになると予測する人もいる。GPT-3より少し大きく、純粋なテキストで、最適な計算と配置に重点を置く。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

Google は最近、最新世代の人工知能アーキテクチャ Pathways に基づいて開発された 5,400 億のパラメータ モデルである PaLM をリリースしました。因果関係のマーキング、コンテキストの理解、推論、コード生成など、多くの機能を備えています。その中でも、常識推論能力は以前の言語モデルと比較して大幅に向上しています。

しかし同時に、PaLM の計算コストがいつものように 6144 個の TPU が使用されていることにも誰もが気づきました。トレーニング用にグラフィック カードをレンタルする場合、最大コストは 1,700 万ドル (1 億人民元以上、「小さな目標」) に達する可能性があります。

明らかに、これは非常に高価であり、「経済的実現可能性」の原則に準拠していません。業界の人々が、長い間、大型モデルに悩まされてきたとよく不満を漏らすのも不思議ではありません。

このモデルが成長し続け、お金が使われ続けるとしたら、いつ終わるのでしょうか?一部の学者はAI Technology Reviewに対し、PaLMのような大規模モデルは確かに成果において大きな進歩を遂げているが、トレーニングとコンピューティングのコストは非常に高く、多くのタスクをまとめる必要はないと語った。

GPT シリーズは、大規模モデルの将来の開発に新たな洞察をもたらす可能性があります。

最近、Cambrian AIのアナリストであるAlberto Romero氏は、OpenAIのCEOであるSam Altman氏が数か月前に述べたことに基づいて、GPT-4が今年の7月か8月にリリースされると推測する記事を発表しました。彼はまた、昨年のAltman氏による質疑応答セッションに基づいて、GPT-4の特徴を予測しました。

確かなのは、アルトマン氏が、GPT-4 のパラメータは 100T には達しないだろうと述べたことです。

また、アルベルト・ロメロ氏は、GPT-4 はおそらく GPT-3 よりもわずかに大きくなるだろうが、GPT-3 の場合のように「大きい」ことが GPT-4 の「セールスポイント」になることはないだろうと推測しました。代わりに、OpenAI は、より小さなモデルのパフォーマンスを向上させる方法に重点を置いています。

1 予測1: GPT-4はそれほど大きくならない

まず、Alberto 氏は GPT-4 が最大の言語モデルにはならないと判断しました。アルトマン氏はまた、GPT-3 よりそれほど大きくはならないとも述べた。以前の世代のニューラル ネットワークと比較すると、GPT-4 は確かに大きくなりますが、サイズがその特徴となるわけではありません。 GPT-4 は、GPT-3 と Gopher (175B-280B) の中間に位置すると考えられます。

アルベルト氏はその後、その予測の理由を次のように述べた。

昨年NvidiaとMicrosoftが開発したMegatron-Turing NLGは、530Bのパラメータを持ち、サイズが540BのGoogleのPaLMが最近登場するまで、最大の高密度ニューラルネットワーク(GPT-3の3倍のサイズ)となっていました。しかし、MT-NLG 以降のいくつかの小型モデルがより高いパフォーマンス レベルを達成したことは注目に値します。

言い換えれば、大きい≠良いということです。小型モデルの存在には2つの意味があります。

1 つは、モデルのサイズを大きくすることがパフォーマンスを向上させる唯一の方法ではなく、最善の方法でもないことに企業が気づいたことです。 2020年、OpenAIのJared Kaplan氏とその同僚は、増加した計算予算が主にパラメータ数の増加に割り当てられた場合、パフォーマンスの向上が最も顕著であり、べき乗関係に従うという結論に達しました。 Google、Nvidia、Microsoft、OpenAI、DeepMind、その他言語モデルを開発している企業は、ガイドラインを額面通りに受け入れています。

論文アドレス: https://arxiv.org/pdf/2001.08361.pdf

MT-NLG は規模が大きいですが、パフォーマンスの面では最適ではありません。実際のところ、どのカテゴリーのベンチマークでも最高というわけではありません。 Gopher (280B) や Chinchilla (70B) などの小型モデルは、サイズがほんのわずかであっても、このタスクでは MT-NLG よりもはるかに優れたパフォーマンスを発揮します。

2 つ目の意味は、企業が「大きいほど良い」という教義を拒否し始めているということです。パラメータを追加するのは簡単ですが、パラメータを増やすことはパフォーマンスを向上できる多くの方法の 1 つに過ぎず、付随的な損害 (二酸化炭素排出量、計算コスト、行き止まりなど) を考えると、最悪の方法の 1 つとなります。企業が小規模なモデルから同様の結果、あるいはより優れた結果を得ることができる場合、大規模なモデルを構築する前によく考えるようになります。

アルトマン氏は、同社はもはや非常に大きなモデルを作ることに注力しておらず、より小さなモデルを最大限に活用することに取り組んでいると述べた。 OpenAI の研究者たちはスケーリング仮説を早くから提唱していたが、今では他の未開拓の道筋によってモデルを改善できることに気づいたのかもしれない。

Alberto 氏は、GPT-4 を大きくするのではなく、OpenAI がデータ、アルゴリズム、パラメーター化、アライメントなど、モデルを大幅に改善できる他の側面に重点を移すだろうと信じているようです。

2 予測2: GPT-4は「最適」なものを見つけようとする

言語モデルは、最適化に関しては重大な問題を抱えています。トレーニングには多額の費用がかかるため、企業は精度とコストの間で妥協を強いられます。この選択により、明らかに最適化されていないモデルが生成されることがよくあります。

GPT-3 は一度しかトレーニングされていないため、まだいくつかのエラーがあり、場合によっては再トレーニングが必要になる可能性があります。 OpenAI は、最適化はコストがかかりすぎて手が届かないため、最適化を実行しないことに決めました。これにより、研究者はモデルに最適なハイパーパラメータ セット (学習率、バッチ サイズ、シーケンスの長さなど) を見つけることができませんでした。

トレーニング コストが高いことによるもう 1 つの結果は、モデルの動作の分析が制限されることです。カプラン氏のチームは、モデルのサイズがパフォーマンスの向上に最も関連する変数であると結論付けたとき、トレーニング トークンの数、つまりモデルに入力されるデータの量を考慮に入れていませんでした。そうするには、かなりの量のコンピューティング リソースが必要になります。

テクノロジー企業は、カプランの結論が自社が知る最良のアイデアであるため、それに従います。皮肉なことに、経済的な制約のせいで、Google、Microsoft、Facebook などの企業は、ますます大型化するモデルに何百万ドルも「無駄遣い」し、その過程で大量の汚染を生み出しているのです。

現在、DeepMind と OpenAI が率いる企業は他のアプローチを模索しています。彼らは、単に大きなモデルではなく、最適なモデルを見つけようとします。

最適なパラメータ化

先月、マイクロソフトと OpenAI は、最適なハイパーパラメータを使用してモデルをトレーニングすれば GPT-3 をさらに改善できることを実証しました。彼らは、GPT-3 の 6.7B バージョンのパフォーマンスが大幅に向上し、GPT-3 の元の 13B バージョンに匹敵することを発見しました。ハイパーパラメータの調整 (大規模なモデルでは実現不可能) により、パラメータの数を 2 倍にした場合と同等のパフォーマンス向上が得られました。

彼らは、小規模なモデルに最適なハイパーパラメータが同等の大規模モデルにも当てはまる新しいパラメータ化 (μP) を発見しました。 μP を使用すると、トレーニング コストのほんの一部で、あらゆるサイズのモデルを最適化できます。これらのハイパーパラメータは、ほとんどコストをかけずに、より大きなモデルに転送できます。

最適計算モデル

数週間前、DeepMind は Kaplan の調査結果を再検討し、一般的な考えに反して、トレーニング トークンの数がモデルのサイズと同じくらいパフォーマンスに影響を与えることを認識しました。彼らは、より多くの計算予算が利用可能になるにつれて、それをスケーラブルなパラメータとデータの間で均等に割り当てる必要があると結論付けました。彼らは、GPT-3 以降のすべての大規模言語モデルの 4 倍のデータ (通常 300B から 1.4T トークン) を使用して、70B モデル (旧 SOTA、Gopher の 4 分の 1) である Chinchilla をトレーニングすることで仮説を証明しました。

結果は明らかです。 Chinchilla は、多くの言語ベンチマークにおいて Gopher、GPT-3、MT-NLG、その他すべての言語モデルを「一貫して大幅に」上回っていますが、現在のモデルはオーバースケーリングとトレーニング不足に悩まされています。

DeepMind の調査結果によると、GPT-4 は GPT-3 よりわずかに大きくなることを考慮すると、GPT-4 が計算最適化を達成するために必要なトレーニング トークンの数は約 5 兆となり、現在のデータセットよりも桁違いに多くなります。最小のトレーニング損失に達するためにモデルをトレーニングするために必要な失敗の数は、GPT-3 を使用する場合(代わりに Gopher の計算予算を使用)よりも 10 ~ 20 倍多くなります。

これはおそらく、アルトマン氏が質疑応答で「GPT-4 は GPT-3 よりも多くの計算を使用する」と述べたときに言及していたことだろう。

OpenAI は間違いなく GPT-4 の最適化を調査するだろうが、予算が不明であるため、どの程度まで調査するかは予測できない。 OpenAI がモデルサイズ以外の変数の最適化に重点を置くことは間違いないでしょう。最適なハイパーパラメータのセット、最適な計算モデルのサイズ、パラメータの数を見つけることで、すべてのベンチマークで驚くべき改善が実現します。これらの方法を 1 つのモデルに組み合わせると、モデルはすべての予測において想像を絶する高さに到達します。

アルトマン氏はまた、モデルを大きくしなければ、人々はそのモデルの素晴らしさを信じないだろうとも述べた。おそらく、モデルのサイズを大きくする作業が完了したということを意味していたのでしょう。

3 予測3: GPT-4はテキストのみのモデルになる

ディープラーニングの未来はマルチモーダルモデルです。私たちはマルチモーダルな世界に住んでいるため、人間の脳には複数の感覚があります。一度に 1 つのモードでのみ世界を認識すると、AI が世界を処理または理解する能力が大幅に制限されます。

しかし、優れたマルチモーダル モデルを見つけるのは、優れた言語のみのモデルや視覚のみのモデルを見つけるよりもはるかに困難です。視覚情報とテキスト情報を 1 つの表現に組み合わせることは、困難な作業です。脳がこれをどのように行うかについての私たちの理解は非常に限られているため(ディープラーニング コミュニティが脳の構造と機能に関する認知科学の洞察を考慮に入れているわけではない)、それをニューラル ネットワークに実装する方法はわかりません。

アルトマン氏は質疑応答で、GPT-4はマルチモーダル(DALLEやLaMDAなど)ではなく、テキストのみのモデルになると述べた。したがって、アルベルト氏の推測では、次世代のマルチモーダル AI に移行する前に、モデルやデータセットのサイズなどの要素を微調整して、言語モデルの限界に到達しようとしているとのことです。

4 予測4: GPT-4は高密度モデルになる

スパース モデルは条件付き計算を活用し、モデルのさまざまな部分を使用してさまざまな種類の入力を処理します。スパース モデルは最近大きな成功を収めており、高い計算コストをかけずに 1T を超えるパラメーター トークンに簡単に拡張できるため、モデル サイズと計算予算の間に一見直交関係が生まれます。ただし、MoE アプローチの利点は、非常に大規模なモデルではそれほど顕著ではありません。

OpenAI が高密度言語モデルに重点を置いてきた歴史を考えると、GPT-4 もおそらく高密度モデルになるだろうと Alberto 氏は考えています。また、アルトマン氏は、GPT-4 は GPT-3 よりそれほど大きくならないだろうと述べているため、少なくとも現時点では、スパース性は OpenAI の選択肢ではないと結論付けることができます。

AI のインスピレーションの源である人間の脳は、スパース処理に大きく依存しています。マルチモーダル性と同様に、スパース性はニューラル ネットワークの将来の世代を支配する可能性があります。

5 予測5: GPT-4はGPT-3よりも整合がとれる

OpenAI は、AI アライメント問題、つまり言語モデルを私たちの意図に従わせ、私たちの価値観に沿わせる方法 (それが何を意味するにせよ) の解決に多大な労力を費やしてきました。これは数学的な問題(例えば、AIに私たちが何を望んでいるのかを正確に理解させるにはどうすればよいか)であるだけでなく、哲学的な問題でもあります(例えば、人間の価値観はグループによって大きく異なり、しばしば互いに衝突するため、AIを人間と一致させる普遍的な方法は存在しない)。

彼らは、人間のフィードバックを通じて指示に従うことを学習する新しい GPT-3 である InstructGPT を使用して最初の試みを行いました (それらの指示が善意によるものか悪意によるものかはモデルに組み込まれませんでした)。

InstructGPT の主な画期的な点は、言語ベンチマークの結果に関係なく、人間のレビュー担当者によってより優れたモデルであると判断されたことです (これらのレビュー担当者は OpenAI の従業員と英語話者の同質のグループであったため、導き出された結論については慎重になる必要があります)。これは、AI の能力を評価するための唯一の指標としてベンチマークを使用することを克服する必要性を強調しています。人間がこれらのモデルをどのように認識するかは、同様に、あるいはそれ以上に重要かもしれません。

Altman 氏と OpenAI が有益な AGI として維持しなければならない約束を考えると、GPT-4 は InstructGPT からの発見を実装し、それに基づいて構築されると信じています。

現在、このモデルのラベル作成は OpenAI の従業員と英語を話す人に限定されているため、モデルの調整方法は改善されると思います。真の連携には、あらゆる性別、人種、国籍、宗教などのグループが含まれるべきです。これは大きな挑戦であり、この目標に向けたあらゆる一歩は歓迎されるでしょう。

6 結論

モデル サイズ: GPT-4 は GPT-3 よりも大きくなりますが、現在の最大モデル (MT-NLG 530B および PaLM 540B) と比べるとそれほど大きくはありません。モデルのサイズは重要な特徴ではありません。

最適性: GPT-4 は GPT-3 よりも多くの計算を使用します。 GPT-4 により、パラメータ化 (最適なハイパーパラメータ) とスケーリング法則 (トレーニング トークンの数はモデル サイズと同じくらい重要) に関する新たな最適化の洞察が可能になります。

マルチモーダル: GPT-4 はマルチモーダル モデルではなく、テキストのみのモデルになります。 OpenAI は、DALLE のようなマルチモーダル モデルに完全に移行する前に、言語モデルを最大限に活用したいと考えています。

スパース性: GPT-2 と GPT-3 の傾向に従い、GPT-4 は密なモデルになります (すべてのパラメーターが任意の入力を処理するために使用されます)。将来的には希少性がさらに重要になるでしょう。

アライメント: GPT-4 は GPT-3 よりもアライメントが高く、人間のフィードバックに基づいてトレーニングされた InstructGPT から学習します。しかし、AI の調整にはまだ長い道のりが残っており、誇張するのではなく、行われた作業を慎重に評価する必要があります。

どう思いますか?

<<:  アメリカの人工知能の簡単な分析

>>:  すべてがAI+になる新しい形の人工知能があなたを待っています

ブログ    

推薦する

スポットロボット犬が古代ポンペイの警備員として活躍!墓泥棒を防ぐだけでなく、宙返りや3Dモデリングもできる

ボストン・ダイナミクスのロボット犬は、ダンスビデオを毎年リリースしているほか、さまざまな産業や警察署...

...

...

自動運転車の分野での課題は何ですか?

テスラが2015年に量産を開始して以来、わずか5、6年で自動運転(インテリジェントアシスト運転とも呼...

...

IEEE: 新たな AI サイバーセキュリティの課題と解決策

人工知能はさまざまな課題に直面しており、IEEE の専門家は対応する解決策を提案しています。合成現実...

なぜ機械学習エンジニアになりたいのですか?それは情熱や熱のせいでしょうか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

2021 年に注目すべき 27 の建設技術トレンド (パート 3)

テクノロジーは建設業界にかつてないほど大きな影響を与えています。クラウドベースのコラボレーションやデ...

ICCV 2021 | 生成されたデータに基づく顔認識

[[422257]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

AutoML、AutoKeras... これら 4 つの「自動」自動機械学習手法の違いがわかりますか?

まずは短いおとぎ話から始めましょう...昔々、今では誰も使っていないプログラミング言語を使い、今では...

Google、AIの地位強化のためデータサイエンスコミュニティKaggleの買収を発表

Google は本日、データサイエンスと機械学習のコンテストを主催するオンライン サービスである K...

機械学習: Python による予測

機械学習は基本的に、既存のデータを使用して新しいデータについて予測を行う人工知能のサブセットです。も...

...

2025年にはL3自動運転が普及する。まだ手動で運転しているのですか?

最近、中国自動車工学協会副秘書長、国際自動車工学科学技術革新戦略研究所執行理事の侯福神氏は上海モータ...