経験を要約し、進化を続け、インテリジェントエージェントのパラメータを最適化するコストを削減できます。

経験を要約し、進化を続け、インテリジェントエージェントのパラメータを最適化するコストを削減できます。

大規模モデルの出現は、インテリジェントエージェントの設計に革命的な変化を引き起こしました。ChatGPTとそのプラグインシステムの登場以来、大規模モデルのインテリジェントエージェントの設計と開発は大きな注目を集めています。この汎用的で強力なインテリジェント アシスタントは、大規模モデルの強力な意味理解および推論機能により、予約や注文などのタスクの完了、コピーの作成の支援、インターネット上の最新の知識やニュースの自動検索などに役立ちます。

OpenAI の最初の開発者会議で、Sam Altman 氏は ChatGPT がインテリジェント アシスタントとして持つ可能性を実証しました。

大規模モデルのインテリジェントエージェントインタラクションのパフォーマンスと信頼性を向上させるために、学術界では、思考チェーンを意思決定プロセスに統合する ReAct や、大規模モデルの自己検査機能を活用する RCI など、さまざまなプロンプトテクノロジーに基づくさまざまなインテリジェントエージェントフレームワークを提案してきました。

大規模モデルエージェントは強力な機能を実証していますが、上記のソリューションには、大規模モデルエージェントが過去のインタラクション経験から学習して進化できるようにする機能が欠けています。この継続的に進化する能力は、大規模モデルのインテリジェントエージェントの開発において緊急に取り組む必要がある問題になりつつあります。

一般的に、強化学習は、過去のインタラクション履歴に基づいてエージェントのインタラクション戦略を最適化するために、意思決定インタラクションタスクでよく使用されます。ただし、大規模なモデルの場合、パラメータを直接最適化するのはコストがかかります。

Algorithm Distillation などの研究は、「コンテキスト内強化学習」の概念を提案しました。強化学習のトレーニング プロセスを事前トレーニング済みの決定トランスフォーマーに入力することで、モデルは入力トレーニング履歴からパフォーマンスの進化パターンを学習し、パラメータを更新せずに次の出力戦略を最適化できます。

ただし、このモデルを大規模なテキスト モデルに直接適用することは困難です。複雑な観察やアクションをテキストとして表現するには、より多くのトークンを消費する必要があるため、完全なトレーニング プロセスを限られたコンテキストに適合させることは困難になります。

この問題を解決するために、上海交通大学のクロスメディア言語インテリジェンス研究所(X-LANCE)は、外部の経験メモリを使用して大規模モデルのインタラクション履歴を保存し、強化学習を使用して経験メモリ内の経験を更新することで、インテリジェントシステム全体のインタラクションパフォーマンスを進化させるという解決策を提案しました。このように設計されたインテリジェントエージェントは、セミパラメトリック強化学習システムを構成します。この論文はNeurIPS 2023に採択されました。

論文アドレス: https://arxiv.org/abs/2306.07929

実験では、この方法を使用して設計された「Rememberer」インテリジェントエージェントが、有効性と安定性の両方で利点を示し、以前の研究結果を上回り、新しいパフォーマンスベンチマークを確立したことが示されました。

方法

「Rememberer」エージェントの技術的アーキテクチャ

この研究では、「Rememberer」エージェント用の RLEM (経験記憶による強化学習) フレームワークを設計し、エージェントが現在のインタラクション状態に応じて経験記憶から過去の経験を動的に抽出し、自身のインタラクション動作を改善できるようにします。同時に、環境から返される報酬を使用して経験記憶を更新することもできるため、全体的な戦略を永続的に改善できます。

タスクの目的、観察、候補となるアクション、および対応する累積報酬(Q値)は、経験メモリに保存されます。トレーニング中は、マルチステップ Q 学習を使用して、メモリ プールに記録された Q 値を更新できます。

推論プロセス中に、エージェントはタスクの類似性と観察の類似性に基づいて経験記憶から最も類似した k 個の経験を抽出し、コンテキスト内学習の例を形成します。

トレーニングプロセス中に得られる経験には成功経験と失敗経験の両方が含まれるため、成功経験のみを使用するこれまでの経験記憶ベースの方法とは異なり、この研究では失敗経験も活用するための特別な出力形式を提案しています。

この出力形式は「アクション アドバイス」と呼ばれ、推奨されるアクションと推奨されないアクションの両方とそれらの Q 値の推定値をモデルが出力する必要があります。これにより、モデルは例の一部のアクションの失敗から学習し、新しい決定でそれらを回避できるようになります。

結果

この研究では、提案された「Rememberer」エージェントを WebShop と WikiHow の 2 つのタスク セットでテストしました。

異なる初期体験と異なるトレーニング セットで構築された Rememberer エージェントをテストしました。ReAct および静的な例を使用したベースラインと比較すると、Rememberer は平均パフォーマンスが高かっただけでなく、さまざまな初期化条件下でもパフォーマンスがより安定しており、大きな利点を示しました。

また、人間がラベル付けした経験記憶(Rememberer (A))を使用した実験を行い、設計された類似性関数が動的な例を抽出する際の有効性を証明しました。また、強化学習トレーニングが人間がラベル付けした経験記憶よりも優れたパフォーマンスを達成できることも証明しました。

アブレーション実験の結果からも、採用されたマルチステップ Q 学習と「アクション提案」出力形式の有効性が確認されました。

この結果は、トレーニング プロセス中に、「Rememberer」エージェントのインタラクティブなパフォーマンスが経験メモリを更新することによって徐々に進化していることも証明しており、設計された方法の有効性をさらに示しています。

結論は

大規模モデルエージェントが自身のインタラクション経験を利用して自身のインタラクションパフォーマンスを進化させることが難しいという問題に対応して、上海交通大学のクロスメディア言語インテリジェンス研究所 (X-LANCE) は RLEM フレームワークを提案し、「Rememberer」エージェントを設計しました。実験結果によると、外部経験メモリを強化し、強化学習で経験メモリを更新することで、「Rememberer」エージェントは独自のインタラクション経験を最大限に活用してインタラクション戦略を進化させ、ベンチマークタスクセットでのパフォーマンスを大幅に向上できることがわかりました。

この研究は、大規模モデルインテリジェントエージェントが独自のパフォーマンスを進化させ、大規模モデルインテリジェントエージェントを強化学習と組み合わせるための貴重なソリューションと洞察を提供します。将来的には、この方向をさらに深く探求する機会があるかもしれません。

<<:  米空軍の最高データ・AI責任者が語るAI運用の主導と戦略的優位性

>>:  Google の時間は残りわずか: 18 歳の従業員が辞職し、経営陣を非難

ブログ    

推薦する

...

人工知能によりスマートロックが「考える」ことが可能になり、ユーザーの悩みを解決

このニッチ産業には大きな発展の可能性があり、特にドアロック業界は従来のドアロックからスマートドアロッ...

...

...

Baidu CTO 王海峰氏:PaddlePaddle ディープラーニング プラットフォームは新しいインフラストラクチャの重要な部分です

産業インテリジェンスの急速かつ徹底的な進歩に伴い、人工知能インフラの構築は不可欠となっています。 5...

顔認識はセキュリティの発展の障害になるのでしょうか?

現在、顔認識は人々の生活のあらゆる側面に組み込まれています。携帯電話のロック解除、顔をスワイプしての...

AIとIoTが交通管理に及ぼす6つの影響

物流と輸送は世界貿易とサプライチェーン管理にとって極めて重要であり、テクノロジーの急速な発展により、...

...

「顔スキャン」はもはやジョークではなく、マスクを着用していても機能します

[51CTO.comからのオリジナル記事] 近年、人工知能、ビッグデータ、クラウドコンピューティング...

データセンターの物理的セキュリティに AI を活用する方法

機械学習と人工知能は、データセンターの問題に対する万能薬として宣伝されてきました。その多くは誇大宣伝...

人工知能とデザインの未来

人工知能はあらゆる業界に混乱をもたらしています。医療分野では、AI 技術が病気の診断において人間を上...

ファーウェイと4つの主要パートナーが共同でAscend AIの大規模モデルトレーニングおよびプッシュ統合ソリューションをリリース

Ascend人工知能産業サミットフォーラムが上海で開催されました。フォーラムでは、ビッグモデルの共同...

PubMedBERT: 生物医学的自然言語処理のためのドメイン固有の事前トレーニング済みモデル

今年、大規模言語モデルが急速に発展したため、BERT のようなモデルは「小規模」モデルと呼ばれるよう...

IBM、GPUに匹敵する新しいニューラルネットワークチップを開発

本日 Nature 誌に掲載された論文で、IBM Research のポスドク研究員 Stefano...

2024年にAIが顧客体験に与える影響

2024 年までに、AI は少なくとも 3 つの異なる方法で顧客体験 (CX) に影響を与えるでしょ...