OpenAI の科学者による最新のスピーチ: GPT-4 は変曲点を超えようとしており、1000 倍のパフォーマンスが確実に出現します。

OpenAI の科学者による最新のスピーチ: GPT-4 は変曲点を超えようとしており、1000 倍のパフォーマンスが確実に出現します。

「GPT-4 は変曲点を超え、パフォーマンスの大幅な向上を達成しようとしています。」

これは、OpenAI の科学者 Hyung Won Chung 氏が、大規模モデルのパラメータ拡張能力の急増に関する最近の講演で導き出した結論です。

彼の見解では、私たち全員が視点を変える必要がある。 LLM には実際に大きな可能性があり、その機能はパラメータの数が一定の規模に達したときにのみ発揮されます。

写真

Hyung Won Chung 氏は、LLM 分野の発展を総括するため、この講演のタイトルを「2023 年の大規模言語モデル」としました。

この分野で本当に重要なことは何でしょうか? 「モデルの拡張」は間違いなく顕著ですが、その広範囲にわたる重要性はより微妙で微妙なものです。

写真

約1時間にわたるスピーチの中で、チョン・ヒョンウォン氏は、これまでの4年間の活動の中での「拡大」についての考えを3つの側面から共有した。

ハイライトは何ですか?

パラメータスケールが大きいほど、LLMが出現する。

チョン・ヒョンウォン氏が強調したポイントは、「学び続け、認知を更新し、『規模』を第一に考える視点を持つことが非常に重要だ」ということだ。

特定の機能は、モデルが特定の規模に達したときにのみ出現するからです。

多くの研究により、小さなモデルでは一部のタスクを解決できず、ランダムな推測に頼らざるを得ないこともあるが、モデルが一定のサイズに達すると、問題を一度に解決できるようになり、場合によっては非常に優れたパフォーマンスを発揮することさえあることがわかっています。

そのため、人々はこの現象を「創発」と呼びます。

写真

現在の世代の LLM が特定の機能を実証できない場合でも、「機能しない」と簡単に言うべきではありません。むしろ、「まだ機能していない」と考えるべきです。

モデルが拡大されると、結論の多くが変わります。

これにより、多くの研究者が問題を新たな観点から見るようになり、「一部の方法は今は機能しない」という考え方から「一部の方法は現時点では機能しない」という考え方へと根本的に転換した。

つまり、最新の方法は現在のモデルには適用できないかもしれませんが、3〜5年後には有効になる可能性があります。

新しい視点を持つ新しい AI 研究者は、影響力のある研究につながることがよくあります。それは、経験豊富な人が試して失敗したかもしれないという直感や考えに縛られないからです。

チョン・ヒョンウォン氏は、実験中に失敗の過程を記録すると述べた。新しいモデルができるたびに、彼は実験を再度実行して、どれが成功し、どれが失敗したかなどを調べました。

このようにして、私たちはテクノロジーの急速な変化に適応するために、自分自身の認識と理解を常に更新し、修正することができます。

現在、GPT-3 と GPT-4 の間には依然として大きな機能のギャップがあり、現在のモデルでそのギャップを埋めようとする試みは効果が薄い可能性があります。

写真

さて、スケールの開発的視点が得られたところで、パラメータをどのようにスケールすればよいのでしょうか?

原理から考えるトランスフォーマー

これまでのところ、すべての大規模モデルの背後にあるアーキテクチャは Transformer 上に構築されています。下の画像は既にご存知の方も多いかと思います。

写真

ここで、ヒョン・ウォン・チョン氏は、Transformer の核となるアイデアを第一原理から説明し、Transformer の内部アーキテクチャの詳細は焦点ではないことを強調しています。

彼は、多くの LLM 研究者が拡張機能がどのように機能するかの詳細を知らないことに気づいた。したがって、このセクションは主に、大規模モデルのトレーニングの影響を理解したい技術者を対象としています。

機能的な観点から見ると、Transformer は、行列乗算と対応する配列変換を備えた簡潔なシーケンス間マッピングとして見ることができます。

写真

したがって、Transformer の規模を拡大するということは、非常に多くのマシンが効率的に行列乗算を実行できるようになることを意味します。

写真

アテンション メカニズムを個別のヘッドに分割することで、複数のマシンとチップを活用し、通信不要の並列化を実現する GSP MD アプローチを使用します。

次に、Jax のフロントエンド ツール PJ の助けを借りて、配列軸がハードウェアにマッピングされ、大規模な言語モデルの並列化が可能になります。

事前トレーニング済みモデルのサイズは桁違いに大きく、スケーリング則は小規模モデルで開発されました。

写真

GPT-4を10,000回実行し、ニューラルネットワークにターゲット関数を学習させる

モデルサイズをさらに拡張する場合、GPT-4の10,000倍と仮定すると、何を考慮すべきでしょうか?

Hyung Won Chung 氏にとって、スケーリングとは、単に同じことをするためにより多くのマシンを使用するということではなく、さらなる拡大を制限する「誘導バイアス」を見つけることです。

つまり、拡張によってすべての問題が解決できるわけではなく、この大規模なエンジニアリング作業、つまりトレーニング後の作業において、さらに研究を行う必要があるということです。

事前トレーニング済みのモデルに直接話しかけることはできませんが、質問に答えるのではなく、プロンプトの後に生成を続けます。プロンプトが悪意のあるものであっても、生成され続けます。

モデルトレーニング後の段階の手順には、命令の調整、報酬モデルのトレーニング、戦略モデルのトレーニング (RLHF と呼ばれることが多い) が含まれます。

写真

RLHF には、報酬モデルが「報酬」の影響を受けやすいなどの欠点があり、解決すべき未解決の研究課題もありますが、RLHF の研究は今後も継続する必要があります。

なぜなら、最大尤度法には帰納的バイアスが大きすぎるため、スケーリングにおける帰納的バイアスを解放するための目的関数(報酬モデル)を学習することは、改善の余地が大いにある別のパラダイムだからです。

写真

さらに、RLHF は成功するまで継続的に研究する必要がある原理的なアルゴリズムです。

つまり、Hyung Won Chung 氏は、最大尤度推定目的関数が GPT-4 の 10,000 倍のスケールを実現するためのボトルネックであると考えています。

表現力豊かなニューラル ネットワークを使用してターゲット機能を学習することが、次のよりスケーラブルなパラダイムとなるでしょう。計算コストが飛躍的に低下するにつれて、スケーラブルなアプローチが勝利するでしょう。

写真

「結局のところ、第一原理から核となるアイデアを理解することが、規模を拡大する唯一の方法です。」

参考文献:

https://twitter.com/xiaohuggg/status/1711714757802369456?s=20

https://twitter.com/dotey/status/1711504620025942243

https://docs.google.com/presentation/d/1636wKStYdT_yRPbJNrf8MLKpQghuWGDmyHinHhAKeXY/edit#slide=id.g27b7c310230_0_496


<<:  ChatGPT/GPT-4/ラマトロッコ問題コンテスト!小型モデルの方が道徳心が高い?

>>:  清華大学が世界初のオンチップ学習メモリスタメモリコンピューティング統合チップを開発、その成果がサイエンス誌に掲載された。

ブログ    
ブログ    
ブログ    

推薦する

Tencent TRS: 産業実践におけるメタ学習とクロスドメイン推奨

1. メタ学習1. パーソナライズモデリングの問題点推奨シナリオでは、データの 80% 分布の問題に...

中間レビュー: 2021 年に最も注目される AI スタートアップ 10 社

[[407377]] 2021年はまだ半分しか経っていませんが、人工知能に注力する人気のスタートアッ...

SDNアーキテクチャに基づくデータセンターネットワークルーティングアルゴリズムの需要分析

現在のネットワーク情報技術の急速な発展に伴い、ネットワーク アーキテクチャはますます複雑になっていま...

機械学習が自動的にモデル化を手助けしてくれる、これら4つのPythonライブラリがあなたの目を開かせてくれる

自動機械学習 (AutoML と略されることが多い) は、機械学習モデルを構築してデータをモデリング...

...

AIがFX市場に、私たちが気づかないうちに革命を起こしている

外国為替市場または外国為替市場は世界最大の金融市場です。それは株式市場よりもさらに大きいです。さらに...

機械学習におけるデータ不均衡の問題を解決する方法

[[186778]]近年、機械学習やデータマイニングは非常に人気があり、徐々に世界に実用的な価値をも...

パーセプトロンの物語: 機械学習はどのようにして今日の地位に到達したのでしょうか?

[[352089]]人工知能は今、巷で話題になっています。企業は顧客やターゲットユーザーを引き付け...

...

ディープラーニングフレームワークの競争: TNN vs. MNN、NCNNは依然として定番

近年、「オープンソース」は開発者コミュニティにおける新たなトレンドとなっています。特にディープラーニ...

ビッグデータと人工知能が決済に革命を起こす

事実は、データ技術の進歩と発展により、仮想カードと電子ウォレットが支払い管理により適したものになって...

AIがデータセンター運営者が直面する課題をどう解決するか

業界の専門家が、業界内で発生する運用上の課題の解決に AI がどのように役立つか、データ センター業...

人工知能の発展は私たちの生活にどのような影響を与えるのでしょうか?

防疫期間中の電子温度測定ドアから、宅配業界で使用されているドローンやロボットによる仕分け、私たちがよ...

...

...