中国人民大学のウェン・ジロン、ガオ・リンらによる32ページにわたるAI自律エージェントの包括的なレビュー。構築、応用、評価を網羅している。

今日の AI 時代では、自律エージェントは人工汎用知能 (AGI) への有望な道であると考えられています。自律エージェントとは、自律的な計画と指示を通じてタスクを完了できるエージェントです。初期の開発パラダイムでは、エージェントの行動を決定するポリシー関数は主にヒューリスティックであり、環境との相互作用を通じて徐々に改善されます。

しかし、制約のないオープンドメイン環境では、自律エージェントは行動において人間レベルの熟練度を達成するのに苦労することがよくあります。

近年の大規模言語モデル (LLM) の大きな成功により、人間のような知能を実現する可能性が示されました。そのため、LLM はその強力な機能により、自律型インテリジェントエージェントを作成するための中核コーディネーターとしてますます使用されるようになり、多種多様な AI エージェントが次々と登場しています。これらのエージェントは、人間のような意思決定プロセスを模倣することで、より複雑で適応性の高い AI システムへの実行可能な道筋を提供します。

ツールエージェント、シミュレーションエージェント、一般エージェント、ドメインエージェントなど、LLM に基づく自律エージェントの概要。

この段階では、既存の LLM ベースの自律エージェントの総合的な分析を行うことが非常に重要であり、これはこの分野の開発状況を包括的に理解し、将来の研究を刺激する上で大きな意義を持ちます。

この記事では、中国人民大学高陵人工知能学院の研究者が、LLM ベースの自律エージェントの構築、応用、評価に焦点を当てた包括的な調査を実施しました。

論文アドレス: https://arxiv.org/pdf/2308.11432.pdf

インテリジェントエージェントの構築のために、彼らは、インテリジェントエージェントの属性を表す構成モジュール、履歴情報を保存するメモリモジュール、将来の行動戦略を策定する計画モジュール、計画決定を実行するアクションモジュールの 4 つの部分から構成される統一フレームワークを提案しました。研究者らは、典型的なインテリジェントエージェントモジュールを紹介した後、さまざまなアプリケーションシナリオに対するインテリジェントエージェントの適応性を高めるために一般的に使用される微調整戦略もまとめました。

次に研究者らは、自律エージェントの潜在的な応用を概説し、それが社会科学、自然科学、工学にどのように役立つかを探ります。最後に、主観的評価戦略と客観的評価戦略の両方を含む、自律エージェントの評価方法について説明します。下の図は記事の全体的な構造を示しています。

画像ソース: https://github.com/Paitesanshi/LLM-Agent-Survey

LLMに基づく自律型知能エージェントの構築

LLM ベースの自律エージェントをより効率的にするためには、2 つの側面を考慮する必要があります。1 つ目は、エージェントが LLM をより有効に活用できるようにどのようなアーキテクチャを設計するか、2 つ目は、パラメータを効果的に学習する方法です。

エージェントアーキテクチャ設計: この論文では、これまでの研究で提案されたアーキテクチャをまとめた統一フレームワークを提案します。全体の構造を図 2 に示します。これは、分析 (プロファイリング) モジュール、メモリモジュール、計画モジュール、およびアクションモジュールで構成されます。

要約すると、分析モジュールはエージェントが果たす役割を特定することを目的としており、メモリモジュールと計画モジュールはエージェントを動的な環境に配置して、エージェントが過去の行動を思い出し、将来のアクションを計画できるようにします。アクションモジュールは、エージェントの決定を特定の出力に変換する役割を担います。これらのモジュールのうち、分析モジュールはメモリモジュールと計画モジュールに影響を与え、これら 3 つのモジュールが一緒にアクションモジュールに影響を与えます。

分析モジュール

自律エージェントは、プログラマー、教師、ドメインエキスパートなどの特定の役割を通じてタスクを実行します。分析モジュールの目的は、エージェントの役割を示すことであり、この情報は通常、LLM の動作に影響を与える入力プロンプトに書き込まれます。既存の研究では、エージェントプロファイルを生成するために、手作業による方法、LLM 生成方法、データセット調整方法という 3 つの戦略が一般的に使用されています。

メモリモジュール

メモリモジュールは、AI エージェントの構築において非常に重要な役割を果たします。環境から感知した情報を記憶し、記録されたメモリを使用してエージェントの将来のアクションを容易にします。メモリモジュールは、インテリジェントエージェントが経験を蓄積し、自己進化を達成し、より一貫性があり、合理的で、効果的な方法でタスクを完了するのに役立ちます。

計画モジュール

人間は複雑なタスクに直面すると、まずそれを単純なサブタスクに分解し、次に各サブタスクを 1 つずつ解決します。計画モジュールは、LLM ベースのエージェントに複雑なタスクを解決するために必要な思考および計画機能を提供し、エージェントをより包括的、強力、かつ信頼性の高いものにします。このホワイトペーパーでは、フィードバックなしの計画とフィードバックありの計画という 2 つの計画モジュールを紹介します。

アクションモジュール

アクションモジュールは、エージェントの決定を特定の出力結果に変換することを目的としています。環境と直接対話し、エージェントがタスクを完了する効率を判断します。このセクションでは、アクションの目標、戦略、アクションスペース、アクションの影響について説明します。

この章では、上記の 4 つの部分に加えて、例からの学習、環境フィードバックからの学習、インタラクティブな人間からのフィードバックからの学習など、インテリジェントエージェントの学習戦略についても紹介します。

表1は、これまでの研究と私たちの分類法との対応を示しています。

LLMに基づく自律エージェントの応用

この章では、社会科学、自然科学、工学の 3 つの異なる分野における LLM ベースの自律エージェントの変革的影響について検討します。

たとえば、LLM ベースのエージェントは、建物、橋、ダム、道路などの複雑な構造物を設計および最適化するために使用できます。以前、研究者らは、人間の建築家と AI エージェントが協力して 3D シミュレーションで構造環境を構築するインタラクティブなフレームワークを提案しました。インタラクティブエージェントは、自然言語の指示を理解し、モジュールを配置し、アドバイスを求め、人間のフィードバックを取り入れることができるため、エンジニアリング設計における人間と機械のコラボレーションの可能性を示しています。

たとえば、コンピュータサイエンスやソフトウェアエンジニアリングの分野では、LLM ベースのエージェントにより、コーディング、テスト、デバッグ、ドキュメント生成を自動化できる可能性があります。一部の研究者は、複数のエージェントが自然言語の対話を通じて通信および連携し、ソフトウェア開発ライフサイクルを完了するエンドツーエンドのフレームワークである ChatDev を提案しています。ToolBench は、コード補完やコード推奨などのタスクに使用できます。MetaGPT は、製品マネージャー、アーキテクト、プロジェクトマネージャー、エンジニアの役割を果たし、コード生成を内部で監視し、最終的な出力コードの品質を向上させることができます。

次の表は、LLM に基づく自律エージェントの代表的なアプリケーションを示しています。

LLMに基づく自律エージェントの評価

この記事では、一般的に使用される 2 つの評価戦略、主観的評価と客観的評価について説明します。

主観的評価とは、インタラクションやスコアリングなどのさまざまな手段を通じて、人間が LLM ベースのエージェントの機能をテストすることを指します。この場合、評価に携わる人材はクラウドソーシングプラットフォームを通じて募集されることが多いのですが、クラウドソーシングの人材は能力の個人差により不安定であると考える研究者もおり、評価には専門家の注釈も利用しています。

さらに、いくつかの現在の研究では、LLM エージェントを主観的な評価者として使用することができます。たとえば、ChemCrow の研究では、EvaluatorGPT は、タスクの正常な完了と基礎となる思考プロセスの正確さの両方を考慮して成績を割り当てることで、実験結果を評価しました。たとえば、ChatEval は LLM に基づいてマルチエージェント審判チームを結成し、モデルの生成結果を討論を通じて評価しました。

主観的な評価と比較して、客観的な評価にはいくつかの利点があります。客観的な評価とは、定量的な指標を使用して LLM ベースの自律エージェントの機能を評価することを指します。このセクションでは、指標、戦略、ベンチマークの観点から客観的な評価方法を検討し、統合します。

使用評価プロセスでは、これら 2 つの方法を組み合わせることができます。

表3は、これまでの研究とこれらの評価戦略との対応をまとめたものである。

詳細については、原文論文を参照してください。

<<: Apache IoTDB: 産業用 IoT シナリオに適した新しいデータベース。保存、クエリ、使用はもはや問題ではありません。

>>: 3,000以上のデータから200を選択する方が実際にはより効果的であり、MiniGPT-4は同じ構成のモデルよりも優れている。