Tencent の研究者は、エージェントのスケーリング特性に関する研究を行いました。単純なサンプリングと投票により、インスタンス化されたエージェントの数が増えるにつれて、大規模言語モデル (LLM) のパフォーマンスが向上することがわかりました。初めて、幅広いシナリオにおけるこの現象の普遍性、他の複雑な方法との直交性を検証し、その背後にある理由を研究し、スケーリングの力をさらに促進する方法を提案します。
この論文では、テンセントの研究者らが、単純なサンプリングと投票の方法により、複雑なマルチ LLM エージェント コラボレーション フレームワークや迅速なエンジニアリング手法を必要とせずに、大規模言語モデルのパフォーマンスがインスタンス化されたエージェントの数に応じて向上し、スケーリング特性を示すことを発見しました。さらに、この方法は既存の複雑な方法と直交しており、組み合わせることで LLM をさらに強化することができ、強化の程度はタスクの難易度に関係します。この論文は、Raw エージェント (複雑なプロンプト エンジニアリングとコラボレーション フレームワークに依存しない LLM エージェント) のスケーリング特性に関する最初の研究です。この研究は、さまざまな LLM ベンチマークで包括的な実験を行い、この発見の一般性を検証し、その発生を促進できる戦略を研究します。コードは現在オープンソースです。 複数の小さなモデルが大きなモデルを上回る この論文では、LLM の自己統合、異種 LLM 統合、複数の LLM エージェントのコラボレーション フレームワークに関する研究など、LLM 統合に関する多くの関連研究について説明し、提案された方法と比較しています。この論文では、より包括的な研究と分析が行われていることがわかります。 インスタンス化されたエージェントの数が増えるにつれて、大規模言語モデルのパフォーマンスがどのように向上するかを研究します。この論文では、単純なサンプリングと投票の方法を採用しています (著者は「単純 (st)」という用語を使用しており、この方法が最も単純な方法の 1 つであると考えていることを示しています)。この方法は、既存の複雑な方法と直交的に組み合わせることができることに注目すべきです。それは 2 つの段階に分けられます:
この論文では、Llama2 および GPT シリーズからさまざまなサイズの言語モデルを選択して評価しており、タスク データセットは推論や生成などの複数の分野をカバーしています。実験結果によると、すべてのタスクとさまざまなタイプおよびサイズの LLM において、インスタンス化されたエージェントの数に応じて LLM のパフォーマンスが向上されることがわかっています。 たとえば、GSM8K タスクのパフォーマンスは 12% ~ 24% 向上し、MATH では 6% ~ 10% 向上します。興味深いことに、複数の小さな LLM を統合すると、より大きな LLM のパフォーマンスに到達したり、それを超えたりすることがあります。たとえば、複数の Llama2-13B を統合すると、GSM8K で 59% の精度が達成され、単一の Llama2-70B の 54% の精度を上回ります。 さらに、著者らは他の方法との互換性についても調査しました。これらの方法は実装方法が異なりますが、組み合わせて使用するとパフォーマンスをさらに向上させることができ、インスタンス化されるエージェントの数が増えるほどパフォーマンスの向上が大きくなるという現象とも一致しています。実験結果では 1% から 27% の範囲でゲインが示されており、この単純なアプローチを他の方法と直交的に使用することで LLM のパフォーマンスをさらに向上できることを示しています。 LLama13Bに基づく LLama70B に基づく GPT-3.5-Turbo ベース さらに、この論文では、パフォーマンスの向上と問題の難易度の関係も分析しています。
ノード: ステップ、破線: 可能な代替ステップ。ノードの深さ: ステップ数、色の強度: 固有の難易度のレベル。この図は、タスクの複雑さがこれらの次元にわたってどのように測定されるかを読者が理解するのに役立ちます。 これに基づいて、この論文では、この方法の有効性をさらに向上させるための 2 つの最適化戦略を提案しています。
最後に、コストを削減するためにサンプリングフェーズを最適化することや、LLM 幻覚の潜在的な悪影響を軽減するメカニズムの開発を継続することなど、今後の作業の方向性が提案され、これらの強力なモデルの展開が責任を持って有益であることを保証します。 |
AIを生物多様性保全に活用することで、植物や動物の絶滅を防ぎ、安定した生態系を維持することができます...
Huawei の Mindspore AI コンピューティング フレームワークの公式オープン ソー...
たとえば、RLHF の「人間」が入れ替わった場合、それは実現可能でしょうか? Google チームの...
計算能力には限界があるため、人間が超人工知能を制御することはできません。 [[379749]]最近、...
[[357414]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...
清華大学の自動化部門チームは、北京総合人工知能研究所と協力して、複数の AI エージェントにボードゲ...
2024年を見据えて、多くの技術リーダーや観察者は、AIが依然として会話や企業計画の中心となるだろう...
【51CTO.com クイック翻訳】機械学習モデルは、定義されたビジネス目標に合わせて設計されていま...
人工知能技術は企業のビジネスに応用され、夢から現実へと変わりました。実際、最近の O'Rei...
生成 AI の時代が到来し、iPhone の時代が到来しました。 8月8日、NVIDIA CEOのジ...
[[348313]]ノースウェスタン工科大学の学生は顔をスキャンして図書館に出入りします。新華社通信...
ビッグデータダイジェスト制作ディープラーニングの三大巨頭の一人として知られるヤン・ルカン氏は、常に楽...
9月25日、北京市中関村の百度ブレインイノベーション体験センターで、百度ブレインオープンデーのポート...