今年はAI分野で大規模言語モデル(LLM)が注目され、OpenAIのChatGPTやGPT-4が大人気となりました。 GPT-4 は、自然言語の理解と生成、論理的推論、コード生成などにおいて、優れた驚くべきパフォーマンスを発揮します。 しかし、GPT-4 によって生成された結果には大きな不確実性があることが徐々にわかってきました。 GPT-4 は、ユーザーが入力した質問に対してランダムな回答を返すことがよくあります。 大規模モデルには温度パラメータがあり、生成される結果の多様性とランダム性を制御するために使用されることが分かっています。温度を 0 に設定すると貪欲サンプリングとなり、モデルによって生成された結果は決定論的になります。ただし、温度 = 0.0 の場合でも、GPT-4 によって生成された結果はランダムです。 開発者の円卓会議で、誰かが OpenAI の技術スタッフに直接この質問をしたところ、次のような答えが返ってきました。「正直に言うと、私たちも困惑しています。システムに何らかのエラーがあるか、最適化された浮動小数点計算に不確実性があるのではないかと考えています…」 注目すべきは、2021年にはすでに、一部のネットユーザーがOpenAI Codexについてこの疑問を提起していたことだ。つまり、このランダム性にはより深い理由がある可能性があるということです。 画像ソース: https://community.openai.com/t/a-question-on-determinism/8185 現在、Sherman Chann という開発者が個人ブログでこの問題を詳細に分析し、「GPT-4 の生成結果の不確実性は、スパース MoE によって引き起こされる」と述べています。 シャーマン・チャンのブログアドレス: https://152334h.github.io/blog/non-determinism-in-gpt-4/ Sherman Chann このブログ投稿は、Google DeepMind の最近のソフト MoE に関する論文「From Sparse to Soft Mixtures of Experts」に触発されました。 論文アドレス: https://arxiv.org/pdf/2308.00951.pdf Soft MoE 論文のセクション 2.2 には、次のような説明があります。 容量の制約下では、すべてのスパース MoE はトークンを固定サイズのグループにルーティングし、グループ内のバランスを強制 (または推奨) します。グループに異なるシーケンスまたは入力からのトークンが含まれている場合、通常、これらのトークンはエキスパート バッファー内の使用可能な位置をめぐって互いに競合します。その結果、一部の入力シーケンスが他の入力の最終予測に影響を与える可能性があるため、モデルはシーケンス レベルでは決定論的ではなく、バッチ レベルでのみ決定論的になります。 以前は、GPT-4 を専門家混合 (MoE) モデルと呼ぶ人もいました。シャーマン・チャンはこれに基づいて次のような仮説を立てました。 GPT-4 API は、バッチ推論を実行するバックエンドでホストされます。一部のランダム性は他の要因によるものである可能性がありますが、API の不確実性の大部分は、スパース MoE アーキテクチャが各シーケンスの決定論を強制できないことに起因しています。 つまり、シャーマン・チャンは、「スパース MoE モデルにおけるバッチ推論が、GPT-4 API における不確実性のほとんどの根本原因である」という仮説を立てています。この仮説を検証するために、Sherman Chann は GPT-4 を使用してコード スクリプトを作成しました。 N=30、max_tokens=128 の場合、結果は次の表のようになります。 Sherman Chann が logit_bias 問題に気付く前は、次の結果が得られました (max_tokens=256)。 実験結果によると、GPT-4 の出力は常に不確実です (一意の完了値が非常に高く、同じ入力に対して GPT-4 によって生成される出力が常に異なることを示しています)。これは、GPT-4 に問題があることをほぼ裏付けています。そして、反復的で無駄なサイクルに陥らない他のすべてのモデルにも、ある程度の不確実性があります。これは、信頼性の低い GPU コンピューティングでも、ある程度のランダム性が生じる可能性があることを示しているようです。 シャーマン・チャン氏は次のように述べた。「不確実性がスパース MoE バッチ推論の固有の特徴であるならば、この事実はそのようなモデルを使用するあらゆる研究にとって明白であるはずです。Google Deepmind の研究チームは明らかにこれを知っていたようで、彼らはこの問題があまりにも些細なものだと考え、論文の中で何気ないコメントとしてそれを書いただけです。」 さらに、シャーマン・チャン氏は、GPT-3.5-Turbo でも MoE が使用される可能性があると推測しました。 ネットユーザーはどう思う?このブログ投稿が公開された後、開発者たちは GPT-4 出力の不確実性についても議論し始めました。これは「マルチスレッド並列処理」によって発生する可能性があると考える人もいます。 「計算は決定論的ですが、計算を実行する複数のプロセッサ間でクロック周波数の偏差が生じる可能性があります」と言う人もいます。 シャーマン・チャンの仮説を支持する開発者は、「GPT-3.5-Turboは、OpenAIがGPT-4用に構築した小さなテストモデルである可能性がある」と述べた。 別の開発者は次のように分析しています。「Soft MoE の論文によると、スパース MoE は不確実性をもたらすだけでなく、エキスパート モジュールの割り当てをめぐって競合する同時リクエストの数に応じてモデルの応答品質が左右される可能性もあります。」 これについてどう思いますか? |
<<: GitHubが11,000スターを獲得、ソフトウェア開発プロセスをシミュレート、オープンソースフレームワークMetaGPTが爆発的に増加
>>: MetaGPTが人気に! 2ドルでボスになれる、GitHubには11.2万個のスターがつき、AIエージェント「オールラウンダー」が誕生
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
AIの波の中で、企業や国を問わず、コンピューティング能力に対する需要は日々高まっています。最近立ち上...
表現学習では、半教師あり学習と自己教師あり学習の特定の機能を通じて、モデルのトレーニングに必要なデー...
[[238409]]ソートは、コンピュータ サイエンスにおいて常に最も基本的なアルゴリズムの 1 ...
翻訳者 |ブガッティレビュー | Chonglou敵対的攻撃は、機械学習システムの信頼性とセキュリテ...
「再帰的に自己進化する AI が人間を支配する」という問題に対する解決策はあるのでしょうか? !多く...
海外メディアの報道によると、ヨーロッパ人は5年前よりもロボットに対して保守的になっていることが調査で...
GPT と GAN で多くの進歩があったにもかかわらず、AGI は解決が難しい問題のままです。本質的...
[[387879]] AI、つまり人工知能は、最近誰もが口にする言葉になっているようです。私はこのテ...
1. 保険業界における詐欺防止に関する問題点とよくある事例保険業界における詐欺問題はますます深刻化し...