OpenAI の科学者による最新のスピーチ: GPT-4 は変曲点を超えようとしており、1000 倍のパフォーマンスが確実に出現します。

「GPT-4 は変曲点を超え、パフォーマンスの大幅な向上を達成しようとしています。」

これは、OpenAI の科学者 Hyung Won Chung 氏が、大規模モデルのパラメータ拡張能力の急増に関する最近の講演で導き出した結論です。

彼の見解では、私たち全員が視点を変える必要がある。 LLM には実際に大きな可能性があり、その機能はパラメータの数が一定の規模に達したときにのみ発揮されます。

写真

Hyung Won Chung 氏は、LLM 分野の発展を総括するため、この講演のタイトルを「2023 年の大規模言語モデル」としました。

この分野で本当に重要なことは何でしょうか? 「モデルの拡張」は間違いなく顕著ですが、その広範囲にわたる重要性はより微妙で微妙なものです。

写真

約1時間にわたるスピーチの中で、チョン・ヒョンウォン氏は、これまでの4年間の活動の中での「拡大」についての考えを3つの側面から共有した。

ハイライトは何ですか?

パラメータスケールが大きいほど、LLMが出現する。

チョン・ヒョンウォン氏が強調したポイントは、「学び続け、認知を更新し、『規模』を第一に考える視点を持つことが非常に重要だ」ということだ。

特定の機能は、モデルが特定の規模に達したときにのみ出現するからです。

多くの研究により、小さなモデルでは一部のタスクを解決できず、ランダムな推測に頼らざるを得ないこともあるが、モデルが一定のサイズに達すると、問題を一度に解決できるようになり、場合によっては非常に優れたパフォーマンスを発揮することさえあることがわかっています。

そのため、人々はこの現象を「創発」と呼びます。

写真

現在の世代の LLM が特定の機能を実証できない場合でも、「機能しない」と簡単に言うべきではありません。むしろ、「まだ機能していない」と考えるべきです。

モデルが拡大されると、結論の多くが変わります。

これにより、多くの研究者が問題を新たな観点から見るようになり、「一部の方法は今は機能しない」という考え方から「一部の方法は現時点では機能しない」という考え方へと根本的に転換した。

つまり、最新の方法は現在のモデルには適用できないかもしれませんが、3〜5年後には有効になる可能性があります。

新しい視点を持つ新しい AI 研究者は、影響力のある研究につながることがよくあります。それは、経験豊富な人が試して失敗したかもしれないという直感や考えに縛られないからです。

チョン・ヒョンウォン氏は、実験中に失敗の過程を記録すると述べた。新しいモデルができるたびに、彼は実験を再度実行して、どれが成功し、どれが失敗したかなどを調べました。

このようにして、私たちはテクノロジーの急速な変化に適応するために、自分自身の認識と理解を常に更新し、修正することができます。

現在、GPT-3 と GPT-4 の間には依然として大きな機能のギャップがあり、現在のモデルでそのギャップを埋めようとする試みは効果が薄い可能性があります。

写真

さて、スケールの開発的視点が得られたところで、パラメータをどのようにスケールすればよいのでしょうか?

原理から考えるトランスフォーマー

これまでのところ、すべての大規模モデルの背後にあるアーキテクチャは Transformer 上に構築されています。下の画像は既にご存知の方も多いかと思います。

写真

ここで、ヒョン・ウォン・チョン氏は、Transformer の核となるアイデアを第一原理から説明し、Transformer の内部アーキテクチャの詳細は焦点ではないことを強調しています。

彼は、多くの LLM 研究者が拡張機能がどのように機能するかの詳細を知らないことに気づいた。したがって、このセクションは主に、大規模モデルのトレーニングの影響を理解したい技術者を対象としています。

機能的な観点から見ると、Transformer は、行列乗算と対応する配列変換を備えた簡潔なシーケンス間マッピングとして見ることができます。

写真

したがって、Transformer の規模を拡大するということは、非常に多くのマシンが効率的に行列乗算を実行できるようになることを意味します。

写真

アテンションメカニズムを個別のヘッドに分割することで、複数のマシンとチップを活用し、通信不要の並列化を実現する GSP MD アプローチを使用します。

次に、Jax のフロントエンドツール PJ の助けを借りて、配列軸がハードウェアにマッピングされ、大規模な言語モデルの並列化が可能になります。

事前トレーニング済みモデルのサイズは桁違いに大きく、スケーリング則は小規模モデルで開発されました。

写真

GPT-4を10,000回実行し、ニューラルネットワークにターゲット関数を学習させる

モデルサイズをさらに拡張する場合、GPT-4の10,000倍と仮定すると、何を考慮すべきでしょうか？

Hyung Won Chung 氏にとって、スケーリングとは、単に同じことをするためにより多くのマシンを使用するということではなく、さらなる拡大を制限する「誘導バイアス」を見つけることです。

つまり、拡張によってすべての問題が解決できるわけではなく、この大規模なエンジニアリング作業、つまりトレーニング後の作業において、さらに研究を行う必要があるということです。

事前トレーニング済みのモデルに直接話しかけることはできませんが、質問に答えるのではなく、プロンプトの後に生成を続けます。プロンプトが悪意のあるものであっても、生成され続けます。

モデルトレーニング後の段階の手順には、命令の調整、報酬モデルのトレーニング、戦略モデルのトレーニング (RLHF と呼ばれることが多い) が含まれます。

写真

RLHF には、報酬モデルが「報酬」の影響を受けやすいなどの欠点があり、解決すべき未解決の研究課題もありますが、RLHF の研究は今後も継続する必要があります。

なぜなら、最大尤度法には帰納的バイアスが大きすぎるため、スケーリングにおける帰納的バイアスを解放するための目的関数（報酬モデル）を学習することは、改善の余地が大いにある別のパラダイムだからです。

写真

さらに、RLHF は成功するまで継続的に研究する必要がある原理的なアルゴリズムです。

つまり、Hyung Won Chung 氏は、最大尤度推定目的関数が GPT-4 の 10,000 倍のスケールを実現するためのボトルネックであると考えています。

表現力豊かなニューラルネットワークを使用してターゲット機能を学習することが、次のよりスケーラブルなパラダイムとなるでしょう。計算コストが飛躍的に低下するにつれて、スケーラブルなアプローチが勝利するでしょう。

写真

「結局のところ、第一原理から核となるアイデアを理解することが、規模を拡大する唯一の方法です。」

参考文献:

https://twitter.com/xiaohuggg/status/1711714757802369456?s=20

https://twitter.com/dotey/status/1711504620025942243

https://docs.google.com/presentation/d/1636wKStYdT_yRPbJNrf8MLKpQghuWGDmyHinHhAKeXY/edit#slide=id.g27b7c310230_0_496

<<: ChatGPT/GPT-4/ラマトロッコ問題コンテスト！小型モデルの方が道徳心が高い？

>>: 清華大学が世界初のオンチップ学習メモリスタメモリコンピューティング統合チップを開発、その成果がサイエンス誌に掲載された。

ブログ

6000 以上の Web ページを閲覧した後、個人使用に最適な AI 製品のリストを選択しました。

OpenAI の科学者による最新のスピーチ: GPT-4 は変曲点を超えようとしており、1000 倍のパフォーマンスが確実に出現します。

パラメータスケールが大きいほど、LLMが出現する。

原理から考えるトランスフォーマー

GPT-4を10,000回実行し、ニューラルネットワークにターゲット関数を学習させる

6000 以上の Web ページを閲覧した後、個人使用に最適な AI 製品のリストを選択しました。

PytorchのNNモジュールと最初のニューラルネットワークモデルを実装する

Java プログラミングスキル - データ構造とアルゴリズム「ヒープソート」

App Store 中国、検索アルゴリズムを最適化：名前による検索を復活

これは陰謀論ですか？ AIさん、どう思いますか？

あなたの AI モデルにはどのようなセキュリティ上の問題がありますか? AI 攻撃と防御の「辞書」ですべて見つけることができます

わかりやすい言葉で解説：人工知能（AI）とは何か？小学生でもわかる

科学者たちはロボットを使って体外でマウスの脳神経を操作します！ 1分以内に通信接続

推薦する

ChatGPTは人気を集めており、OpenAIはAIソフトウェア用のアプリストアの作成を検討している

生成 AI は現在の DevOps および SRE 作業システムをどのようにサポートしますか?

AI を活用して災害による損失を評価し、救助活動を支援する

オープンソース！香港中文大学、MIT、復旦大学が初のRNA基礎モデルを提案

李開復氏はAIバブルが年末までに崩壊すると予測、ルクン氏：それは本当だ

2024年のビッグデータの不完全な予測

UNC スタンフォード大学らは、GPT-4V の予期せぬ脆弱性を明らかにしました。GPT-4V は人間に騙されて、ひょうたんの赤ちゃんを 8 匹数え上げてしまうのです。ルカンとジム・ファンは衝撃を受けた

第2回世界情報会議の3つのハイライトを一足先にご紹介

主任アナリストが、1時間あたり168ドルを消費する人気のGroqの秘密を明かす！ H100の10倍のコストがかかるが、老黄は笑って何も言わなかった

TensorFlow が新旧 Mac 向けに新バージョンをリリース、最大 7 倍高速化

700億Llama2が即完売！申請不要で商用利用も無料という国産最新大型モデルが発表された。その背後にあるのはプライベートエクイティ大手企業

AI研究 | 陸宇：人工知能はオンライン教育を改善する大きな可能性を秘めている

Nvidia は 5 億ドル相当の巨額注文を獲得しました。インドのデータセンターが H100/GH200 を一気に 16,000 台購入