今年はAI分野で大規模言語モデル(LLM)が注目され、OpenAIのChatGPTやGPT-4が大人気となりました。 GPT-4 は、自然言語の理解と生成、論理的推論、コード生成などにおいて、優れた驚くべきパフォーマンスを発揮します。 しかし、GPT-4 によって生成された結果には大きな不確実性があることが徐々にわかってきました。 GPT-4 は、ユーザーが入力した質問に対してランダムな回答を返すことがよくあります。 大規模モデルには温度パラメータがあり、生成される結果の多様性とランダム性を制御するために使用されることが分かっています。温度を 0 に設定すると貪欲サンプリングとなり、モデルによって生成された結果は決定論的になります。ただし、温度 = 0.0 の場合でも、GPT-4 によって生成された結果はランダムです。 開発者の円卓会議で、誰かが OpenAI の技術スタッフに直接この質問をしたところ、次のような答えが返ってきました。「正直に言うと、私たちも困惑しています。システムに何らかのエラーがあるか、最適化された浮動小数点計算に不確実性があるのではないかと考えています…」 注目すべきは、2021年にはすでに、一部のネットユーザーがOpenAI Codexについてこの疑問を提起していたことだ。つまり、このランダム性にはより深い理由がある可能性があるということです。 画像ソース: https://community.openai.com/t/a-question-on-determinism/8185 現在、Sherman Chann という開発者が個人ブログでこの問題を詳細に分析し、「GPT-4 の生成結果の不確実性は、スパース MoE によって引き起こされる」と述べています。 シャーマン・チャンのブログアドレス: https://152334h.github.io/blog/non-determinism-in-gpt-4/ Sherman Chann このブログ投稿は、Google DeepMind の最近のソフト MoE に関する論文「From Sparse to Soft Mixtures of Experts」に触発されました。 論文アドレス: https://arxiv.org/pdf/2308.00951.pdf Soft MoE 論文のセクション 2.2 には、次のような説明があります。 容量の制約下では、すべてのスパース MoE はトークンを固定サイズのグループにルーティングし、グループ内のバランスを強制 (または推奨) します。グループに異なるシーケンスまたは入力からのトークンが含まれている場合、通常、これらのトークンはエキスパート バッファー内の使用可能な位置をめぐって互いに競合します。その結果、一部の入力シーケンスが他の入力の最終予測に影響を与える可能性があるため、モデルはシーケンス レベルでは決定論的ではなく、バッチ レベルでのみ決定論的になります。 以前は、GPT-4 を専門家混合 (MoE) モデルと呼ぶ人もいました。シャーマン・チャンはこれに基づいて次のような仮説を立てました。 GPT-4 API は、バッチ推論を実行するバックエンドでホストされます。一部のランダム性は他の要因によるものである可能性がありますが、API の不確実性の大部分は、スパース MoE アーキテクチャが各シーケンスの決定論を強制できないことに起因しています。 つまり、シャーマン・チャンは、「スパース MoE モデルにおけるバッチ推論が、GPT-4 API における不確実性のほとんどの根本原因である」という仮説を立てています。この仮説を検証するために、Sherman Chann は GPT-4 を使用してコード スクリプトを作成しました。 N=30、max_tokens=128 の場合、結果は次の表のようになります。 Sherman Chann が logit_bias 問題に気付く前は、次の結果が得られました (max_tokens=256)。 実験結果によると、GPT-4 の出力は常に不確実です (一意の完了値が非常に高く、同じ入力に対して GPT-4 によって生成される出力が常に異なることを示しています)。これは、GPT-4 に問題があることをほぼ裏付けています。そして、反復的で無駄なサイクルに陥らない他のすべてのモデルにも、ある程度の不確実性があります。これは、信頼性の低い GPU コンピューティングでも、ある程度のランダム性が生じる可能性があることを示しているようです。 シャーマン・チャン氏は次のように述べた。「不確実性がスパース MoE バッチ推論の固有の特徴であるならば、この事実はそのようなモデルを使用するあらゆる研究にとって明白であるはずです。Google Deepmind の研究チームは明らかにこれを知っていたようで、彼らはこの問題があまりにも些細なものだと考え、論文の中で何気ないコメントとしてそれを書いただけです。」 さらに、シャーマン・チャン氏は、GPT-3.5-Turbo でも MoE が使用される可能性があると推測しました。 ネットユーザーはどう思う?このブログ投稿が公開された後、開発者たちは GPT-4 出力の不確実性についても議論し始めました。これは「マルチスレッド並列処理」によって発生する可能性があると考える人もいます。 「計算は決定論的ですが、計算を実行する複数のプロセッサ間でクロック周波数の偏差が生じる可能性があります」と言う人もいます。 シャーマン・チャンの仮説を支持する開発者は、「GPT-3.5-Turboは、OpenAIがGPT-4用に構築した小さなテストモデルである可能性がある」と述べた。 別の開発者は次のように分析しています。「Soft MoE の論文によると、スパース MoE は不確実性をもたらすだけでなく、エキスパート モジュールの割り当てをめぐって競合する同時リクエストの数に応じてモデルの応答品質が左右される可能性もあります。」 これについてどう思いますか? |
<<: GitHubが11,000スターを獲得、ソフトウェア開発プロセスをシミュレート、オープンソースフレームワークMetaGPTが爆発的に増加
>>: MetaGPTが人気に! 2ドルでボスになれる、GitHubには11.2万個のスターがつき、AIエージェント「オールラウンダー」が誕生
「不確実性」の概念は、人工知能の安全性、リスク管理、ポートフォリオの最適化、科学的測定、保険などにつ...
[[269995]]音楽業界では、他の業界と同様に、AI テクノロジーによってサービスを自動化し、...
インテリジェント プロセス オートメーション (IPA) とは何ですか?インテリジェント プロセス ...
方法1: ランダム生成まず、非常に一般的な方法であるランダム生成法(私が名付けました)を紹介します。...
週末ですが、まだ充電中です。今日は強化学習について見ていきます。ただし、ゲームで使うつもりはありませ...
「今後10年でAGIのようなシステムが登場しても驚かないだろう」と、グーグル・ディープマインドの共同...
人工知能はもはや未来の技術ではありません。私たちの日常の作業を自動化する機械はますます賢くなり、人工...
AI画像生成は秒単位のスピードに達しました。描画を完了するには4ステップの推論しかかからず、最速では...
ついにOpenAIの画像処理AIツール「DALL-Eシリーズ」が最新バージョン「DALL・E 3」に...
AI スタートアップのアイデアは、わずか 2 か月の作業で商品化できるのでしょうか?今年のイノベーシ...
このアイデアは、かなり早い段階で思いつきました。私は検索エンジンの経験があるため、検索エンジンにおけ...
Amazon Polly は、テキストをリアルな音声に変換するサービスです。これにより、音声を発する...
機械はどのように学習し、何を学ぶのでしょうか?人間はどうやって機械に学習を教えるのでしょうか?この記...