GPT の成熟への道に関する公式メモ | OpenAI Developer Day

OpenAI は ChatGPT 製品の作成の詳細を明らかにしました。

そして、この共有の波は、次のような情報でいっぱいです。

ChatGPTの背後にある製品チームと開発チームがどのように協力しているか
大規模モデルアプリケーションをプロトタイプから成熟段階に移行する方法
OpenAI が大規模モデルのパフォーマンスを最適化する方法...

上記の情報は、今年新たに開催された「テクノロジースプリングフェスティバルガラ」 - OpenAI Developer Dayから引用したものです。

世界中を驚かせたウルトラマンの冒頭スピーチのほか、同日にはグループディスカッションも行われ、公式による動画も続々とアップされた。

これは、衝撃的な事件が起こる前の OpenAI チームの「内部事情」を暴露したものとみなすことができます。

学ぶ価値のあるノートをまとめました。見てみましょう〜

製品チームと研究チームが「前例のない」コラボレーションを実現

2022年10月、OpenAIの研究チームと製品チームは、基本的な大規模モデル用の会話型インターフェースを作成するというアイデアについて議論を始めました。

ChatGPTはまだ初期段階でしたが、研究チームと製品チームの緊密な連携はすでに始まっており、両者の相互影響度は他に類を見ないものでした。

おそらく、このチームワークモデルは他の企業にとっても参考になるだろう。

OpenAI のモデル動作のプロダクトリーダーである Joanne Jang 氏は、次のように述べています。

OpenAI では、研究チームと製品チームの相互影響が業界で前例のないレベルに達しています。

ChatGPT 自体が最も明白な例です。

OpenAI ポストトレーニングチームの責任者である Barret Zoph 氏と Joanne 氏は、ChatGPT の開発と改善中に両チーム間で行われたコラボレーションの詳細を共有しました。

バレットのチームの主な責任は、モデルの機能をChatGPT と API に追加する前に微調整することです。具体的には、後期段階で ChatGPT に追加されるネットワーク、ファイル分析などの機能はすべて、Post-Training チームの責任です。

バレット氏は、製品チームのさまざまな設計のおかげで、研究チームは現実世界でユーザーや開発者にとってどのようなモデルの応答が本当に役立つのかという情報をタイムリーに得ることができると強調しました。

たとえば、ChatGPT の「いいね」ボタンと「嫌い」ボタンは、研究自体に大きな価値をもたらします。

このフィードバックに基づいて作業を調整し、何がうまく機能し、何がうまく機能していないかを理解することで、モデルの応答をユーザーにとってより適切なものにすることができます。

研究では、モデルの進捗状況を測定するためにオフラインの評価指標とベンチマークを使用することがよくありますが、これが実際のモデルの使用方法ではない場合があります。製品チームの協力により、汎用的で強力なシステムの構築に向けて正しい方向に進んでいることを確信できます。

製品チームの観点から、Joanne は OpenAI の製品マネージャーが果たす役割もユニークであると考えています。

まず、 OpenAI における製品開発の目標は、収益、エンゲージメント、成長といった従来の製品指標ではなく、全人類に利益をもたらす汎用人工知能を生み出すことです。

第二に、OpenAI のプロダクトマネージャーは、ユーザー中心の観点ではなく技術的な観点に基づいて製品の機能を設計することがよくあります。

最後に、OpenAI の研究チームと製品チームの相互影響度は非常に高く、業界では前例のないレベルであると言えます。

ChatGPTの誕生プロセスを例に挙げてみましょう。 GPT-3、InstructGPT、そしてChatGPTを経て、研究チームは、複数ラウンドの会話でモデルを直接トレーニングすると、モデルに新しい動作をより効果的に教えることができることを発見しました。

モデルの動作を教える(設計する)という具体的な作業は、製品チームの参加によって完了します。たとえば、ユーザーが ChatGPT に「あなたは今、猫です」と伝えた場合、ChatGPT はどのようなデフォルトの動作を示すべきでしょうか。

製品チームは、ほとんどのユーザーに適したデフォルトモードを見つけるために多くの実験を行いました。

(追記: ただし、ジョアンは、ユーザーにとって最適なモデルはパーソナライズされたモデルであるとも述べており、これは大規模モデルの将来の開発方向に関する予測の 1 つでもあります。)

大規模モデルのパフォーマンスを最適化するための非線形戦略

コラボレーションの「裏話」をお話しした後は、技術的な詳細について見ていきましょう。

開発者デーでは、OpenAI の技術者が GPT-4 で使用される大規模モデル最適化テクノロジーを共有しました。

重要な点は、2 つの次元と 4 つの象限を含む非線形戦略を採用することです。

OpenAI は、プロンプトエンジニアリング、検索強化生成 (RAG)、微調整という 3 つの手法を含むマルチレベル非線形最適化フレームワークを提案しました。

従来のモデル最適化手法では、これら 3 つのテクノロジーを線形的に使用することが多い。OpenAI の見解では、このモデルでは「本当に解決する必要がある問題」を解決できない。

OpenAI は、大規模モデルのパフォーマンス最適化は、1 つはモデル自体のパフォーマンス、もう 1 つはコンテキストという2 つの次元に分かれていると考えています。

これら 2 つの次元に対するさまざまな需要レベルに応じて、4 つの象限が形成されます。

具体的には、これら 2 つの最適化方向の出発点はプロンプトエンジニアリングですが、RAG を使用するか、微調整を使用するか (またはその両方) は実際の状況によって異なります。

OpenAIの技術者2名が、3つの技術それぞれの利点を詳細に比較しながら、それぞれについて具体的な説明をしました。

1 つ目はプロンプトエンジニアリングです。これは、大規模モデルの最適化の出発点と見なされています。プロンプトエンジニアリングでは、テストしてすばやく反復できるプロンプトワードを設計することで、モデルのパフォーマンスが向上します。

具体的な戦略としては、プロンプトをより明確にすること、複雑なタスクを分解すること、サンプルテキストを提供すること、外部ツールを呼び出すことなどが挙げられます。

しかし、モデルに新しい情報を学習させたり、複雑な方法 (新しいプログラミング言語の学習など) を複製したりすることは、ヒントエンジニアリングの能力を超えています。

さらに、タスクの改良もトークンの増加につながるため、迅速なエンジニアリングもトークン消費の削減にはつながりません。

RAG と微調整によって解決される問題には、いくつかの類似点があります。両者の主な違いは、RAG はモデルが与えられた情報 (短期記憶) から答えを得るのに適しているのに対し、微調整はモデルの長期記憶に重点を置いていることです。

RAG の主な利点は、知識ベースを使用してモデルにコンテキスト情報を提供することで、モデルの幻覚を減らすことです。

しかし、このような知識や情報は、通常、非常に特定の分野に限定されており、広範な分野（「法律」や「医学」など）に大きな影響を与えることはありません。

同時に、大量のコンテキスト情報を提供すると、プロンプトエンジニアリングよりもトークンの消費量が多くなり、トークンの節約にもつながりません。

さらに、RAG を過度に適用すると、逆効果になる可能性もあります。たとえば、一部のユーザーは GPT にドキュメント内の情報のみを使用するように要求したところ、モデルに「幻覚」があることに気付きました。

しかし、その後の分析で、これはモデルの錯覚ではなく、ユーザー自身が提供した情報が間違っていたことが判明しました。

微調整とは、小さなデータセットでモデルをトレーニングすることで、パフォーマンスと効率を向上させたり、出力構造を変更したりすることです。

RAG と比較すると、微調整はモデルの既存の知識を重視し、複雑なタスクのガイダンスを提供することに重点を置いており、新しい知識を学習したり、新しいユースケースを繰り返したりするのにはあまり適していません。

まとめると、これらの戦略の特性と適用領域に基づいて、実際のニーズに応じてターゲットを絞った方法で最適化戦略を選択する必要があります。

これは、OpenAI が GPT-4 をトレーニングするために使用する魔法の武器でもあります。特にアプリケーションレベルでは、OpenAI は起業家グループに素晴らしい贈り物を提供しました。

起業家に「ビッグギフトパッケージ」を送る

OpenAI のエンジニアリングリーダーと応用チームのメンバーは、OpenAI モデル上に構築されたアプリケーションをプロトタイプから完成品に移行する方法を共有しました。

OpenAI の API をベースにしたアプリケーションの革新にも興味がある場合は、公式に共有されているエンジニアリングの実践経験をいくつか紹介します。

まず、人間中心のユーザーエクスペリエンスを作成します。つまり、モデルの不確実性を減らし、モデルのセキュリティと制御性を強化します。

2 番目に、一貫したエクスペリエンスを提供します。たとえば、ナレッジベースなどのツールを使用して、モデルの不整合を減らします。エンジニアらは、OpenAI はシードを制御することで結果の再現性を制御し、システム全体の状態を表す現在のシステムの「指紋」を提供すると述べました。

3番目に、パフォーマンス評価に注意を払います。そしてOpenAIは、手動のパフォーマンス評価の代わりに大規模なモデルを使用することが効果的であることを発見しました。

4番目に、遅延とコストを管理します。主な戦略は 2 つあります。1 つ目は、セマンティックキャッシュを追加して実際の API へのアクセスを減らすことです。2 つ目は、GPT-4 を直接使用せず、GPT-4 の出力を使用して GPT-3.5 Turbo を微調整するなど、より安価なモデルを使用することです。

製品アップデートに関しては、新しい API にも注目する価値があります。OpenAI の宣伝スローガンは、「開発したアプリケーションに直接、世界クラスのアシスタントを構築できる」というものです。

新しい API は、コードインタープリターの呼び出しと外部知識をサポートします。OpenAI の API エンジニアリングディレクターの Michelle がライブデモンストレーションを行いました。

さらに、関数（サードパーティ API）呼び出しにも改良が加えられ、JSON 出力モードが追加され、複数の関数を同時に呼び出すことができるようになりました。