OpenAI の科学者による最新のスピーチ: GPT-4 は変曲点を超えようとしており、1000 倍のパフォーマンスが確実に出現します。

OpenAI の科学者による最新のスピーチ: GPT-4 は変曲点を超えようとしており、1000 倍のパフォーマンスが確実に出現します。

「GPT-4 は変曲点を超え、パフォーマンスの大幅な向上を達成しようとしています。」

これは、OpenAI の科学者 Hyung Won Chung 氏が、大規模モデルのパラメータ拡張能力の急増に関する最近の講演で導き出した結論です。

彼の見解では、私たち全員が視点を変える必要がある。 LLM には実際に大きな可能性があり、その機能はパラメータの数が一定の規模に達したときにのみ発揮されます。

写真

Hyung Won Chung 氏は、LLM 分野の発展を総括するため、この講演のタイトルを「2023 年の大規模言語モデル」としました。

この分野で本当に重要なことは何でしょうか? 「モデルの拡張」は間違いなく顕著ですが、その広範囲にわたる重要性はより微妙で微妙なものです。

写真

約1時間にわたるスピーチの中で、チョン・ヒョンウォン氏は、これまでの4年間の活動の中での「拡大」についての考えを3つの側面から共有した。

ハイライトは何ですか?

パラメータスケールが大きいほど、LLMが出現する。

チョン・ヒョンウォン氏が強調したポイントは、「学び続け、認知を更新し、『規模』を第一に考える視点を持つことが非常に重要だ」ということだ。

特定の機能は、モデルが特定の規模に達したときにのみ出現するからです。

多くの研究により、小さなモデルでは一部のタスクを解決できず、ランダムな推測に頼らざるを得ないこともあるが、モデルが一定のサイズに達すると、問題を一度に解決できるようになり、場合によっては非常に優れたパフォーマンスを発揮することさえあることがわかっています。

そのため、人々はこの現象を「創発」と呼びます。

写真

現在の世代の LLM が特定の機能を実証できない場合でも、「機能しない」と簡単に言うべきではありません。むしろ、「まだ機能していない」と考えるべきです。

モデルが拡大されると、結論の多くが変わります。

これにより、多くの研究者が問題を新たな観点から見るようになり、「一部の方法は今は機能しない」という考え方から「一部の方法は現時点では機能しない」という考え方へと根本的に転換した。

つまり、最新の方法は現在のモデルには適用できないかもしれませんが、3〜5年後には有効になる可能性があります。

新しい視点を持つ新しい AI 研究者は、影響力のある研究につながることがよくあります。それは、経験豊富な人が試して失敗したかもしれないという直感や考えに縛られないからです。

チョン・ヒョンウォン氏は、実験中に失敗の過程を記録すると述べた。新しいモデルができるたびに、彼は実験を再度実行して、どれが成功し、どれが失敗したかなどを調べました。

このようにして、私たちはテクノロジーの急速な変化に適応するために、自分自身の認識と理解を常に更新し、修正することができます。

現在、GPT-3 と GPT-4 の間には依然として大きな機能のギャップがあり、現在のモデルでそのギャップを埋めようとする試みは効果が薄い可能性があります。

写真

さて、スケールの開発的視点が得られたところで、パラメータをどのようにスケールすればよいのでしょうか?

原理から考えるトランスフォーマー

これまでのところ、すべての大規模モデルの背後にあるアーキテクチャは Transformer 上に構築されています。下の画像は既にご存知の方も多いかと思います。

写真

ここで、ヒョン・ウォン・チョン氏は、Transformer の核となるアイデアを第一原理から説明し、Transformer の内部アーキテクチャの詳細は焦点ではないことを強調しています。

彼は、多くの LLM 研究者が拡張機能がどのように機能するかの詳細を知らないことに気づいた。したがって、このセクションは主に、大規模モデルのトレーニングの影響を理解したい技術者を対象としています。

機能的な観点から見ると、Transformer は、行列乗算と対応する配列変換を備えた簡潔なシーケンス間マッピングとして見ることができます。

写真

したがって、Transformer の規模を拡大するということは、非常に多くのマシンが効率的に行列乗算を実行できるようになることを意味します。

写真

アテンション メカニズムを個別のヘッドに分割することで、複数のマシンとチップを活用し、通信不要の並列化を実現する GSP MD アプローチを使用します。

次に、Jax のフロントエンド ツール PJ の助けを借りて、配列軸がハードウェアにマッピングされ、大規模な言語モデルの並列化が可能になります。

事前トレーニング済みモデルのサイズは桁違いに大きく、スケーリング則は小規模モデルで開発されました。

写真

GPT-4を10,000回実行し、ニューラルネットワークにターゲット関数を学習させる

モデルサイズをさらに拡張する場合、GPT-4の10,000倍と仮定すると、何を考慮すべきでしょうか?

Hyung Won Chung 氏にとって、スケーリングとは、単に同じことをするためにより多くのマシンを使用するということではなく、さらなる拡大を制限する「誘導バイアス」を見つけることです。

つまり、拡張によってすべての問題が解決できるわけではなく、この大規模なエンジニアリング作業、つまりトレーニング後の作業において、さらに研究を行う必要があるということです。

事前トレーニング済みのモデルに直接話しかけることはできませんが、質問に答えるのではなく、プロンプトの後に生成を続けます。プロンプトが悪意のあるものであっても、生成され続けます。

モデルトレーニング後の段階の手順には、命令の調整、報酬モデルのトレーニング、戦略モデルのトレーニング (RLHF と呼ばれることが多い) が含まれます。

写真

RLHF には、報酬モデルが「報酬」の影響を受けやすいなどの欠点があり、解決すべき未解決の研究課題もありますが、RLHF の研究は今後も継続する必要があります。

なぜなら、最大尤度法には帰納的バイアスが大きすぎるため、スケーリングにおける帰納的バイアスを解放するための目的関数(報酬モデル)を学習することは、改善の余地が大いにある別のパラダイムだからです。

写真

さらに、RLHF は成功するまで継続的に研究する必要がある原理的なアルゴリズムです。

つまり、Hyung Won Chung 氏は、最大尤度推定目的関数が GPT-4 の 10,000 倍のスケールを実現するためのボトルネックであると考えています。

表現力豊かなニューラル ネットワークを使用してターゲット機能を学習することが、次のよりスケーラブルなパラダイムとなるでしょう。計算コストが飛躍的に低下するにつれて、スケーラブルなアプローチが勝利するでしょう。

写真

「結局のところ、第一原理から核となるアイデアを理解することが、規模を拡大する唯一の方法です。」

参考文献:

https://twitter.com/xiaohuggg/status/1711714757802369456?s=20

https://twitter.com/dotey/status/1711504620025942243

https://docs.google.com/presentation/d/1636wKStYdT_yRPbJNrf8MLKpQghuWGDmyHinHhAKeXY/edit#slide=id.g27b7c310230_0_496


<<:  ChatGPT/GPT-4/ラマトロッコ問題コンテスト!小型モデルの方が道徳心が高い?

>>:  清華大学が世界初のオンチップ学習メモリスタメモリコンピューティング統合チップを開発、その成果がサイエンス誌に掲載された。

ブログ    

推薦する

AIによるパスワードの盗難を防ぐ方法

翻訳者 | 陳俊レビュー | Chonglou現在、人工知能 (AI) アプリケーションの人気と急速...

OpenAIのSora、中国は追いつけないのか?

春節の時期にOpenAIのSoraが大人気でした。私も見てみましたが、正直GPT4が出た時ほどの衝撃...

ディープラーニングフレームワークの簡単な歴史: TFとPyTorchは二大勢力であり、次の10年は黄金時代を迎える

過去 10 年間で、機械学習 (特にディープラーニング) の分野では多数のアルゴリズムとアプリケーシ...

安定性、効率性、俊敏性:適応型AIの利点

人工知能にはさまざまなものがあります。コンピューターを使って知的なことを行うこともあれば、コンピュー...

米研究機関:中国は2030年までにAI研究で世界をリードすると予想

アメリカのテクノロジーメディアGeekWireによると、米国シアトルのアレン人工知能研究所(AI2)...

AAAI2018にはアリババからの11の論文が収録され、6人の著者がメインカンファレンスでプレゼンテーションを行うよう招待されました。

2018年の初め、アリババは人工知能の分野での最新の成果を発表しました。人工知能に関するトップ学術...

「AI as a Service」は、業界における人工知能の応用シナリオです。

「AI as a Service」は、多次元統合と3次元浸透を備えたプラットフォームです。人工知能...

...

CV退化!心理学者が顔認識を学び、世界中の表情を区別するために600万本のビデオを訓練

世界中の人々は笑ったり悲しんだりするときに同じ表情をしますか? [[402741]]人々の表情が一貫...

中国がAI技術の輸出を制限! TikTokアルゴリズムの名前が挙がり、売却または制限される

[[339978]]米国のTikTok狩りは続く。 8月27日、ByteDanceがTikTokの北...

...

5G、自動運転、AIがどの段階に到達したかを示す曲線

最近、世界で最も権威のあるIT市場調査およびコンサルティング会社であるガートナーは、新しいテクノロジ...

Google、新しいオープンソース圧縮アルゴリズム Brotli を発表

Zopfli に続いて、Google の公式ブログでは新しいオープンソース圧縮アルゴリズム Brot...

私が純粋アルゴリズムの面接の質問に反対する理由

アルゴリズム面接はマイクロソフトが開発した面接方法かもしれません。現在多くの企業が追随しており、私た...

ビッグデータと人工知能のデュアルエンジンが企業のデジタル変革を推進

[51CTO.comより引用] デジタル時代において、ビッグデータと人工知能は企業のビジネス成長を推...