本日は、Google Research とプリンストン大学の研究者グループが言語モデルにおける推論と動作を組み合わせる可能性を探求した論文「REACT: 言語モデルにおける推論と動作の相乗効果」を紹介します。大規模言語モデル (LLM) の推論 (思考連鎖の促進) とアクション (行動計画の生成) の機能は別々のトピックとして研究されてきましたが、両方の機能が 1 つのシステムに統合されたのは今回が初めてです。 ReAct フレームワークにより、仮想エージェントは Web や SQL データベースへの接続などのツールを使用できるようになるため、ほぼ無制限の拡張が可能になるため、これは重要な論文であると思います。 推論と行動の力人間の知能は、タスク指向の行動と次のステップに関する推論のシームレスな組み合わせによって特徴付けられます。この能力により、予期せぬ状況にも適応しながら、新しいタスクを素早く学習し、信頼できる決定を下すことができます。 ReAct は、言語モデルでこの相乗効果を再現し、インターリーブ方式で推論手順とタスク固有のアクションを生成できるようにすることを目的としています。 ReActの仕組みReAct は、大規模な言語モデルに、特定のタスクの言語推論履歴のステップとアクションを生成するよう促します。これらのプロンプトは、モデルの思考とアクションの生成を導く少数のコンテキスト例で構成されています。コンテキストの例を下の図に示します。これらの例は、エージェントを循環的なプロセス(思考の生成、アクションの実行、そしてそのアクションの結果を観察すること)に導きます。 ReAct は推論トレースとアクションを組み合わせることで、モデルが動的推論を実行できるようにします。これにより、高レベルの計画を生成し、外部環境と対話して追加情報を収集することもできます。 アプリケーションと結果研究者らは、質問への回答、事実の検証、テキストベースのゲーム、Web ナビゲーションなど、さまざまな言語推論および意思決定タスクに ReAct を適用しました。結果は優れており、ReAct は解釈可能性と信頼性の点で他の最先端のベースラインを一貫して上回っています。 質問応答と事実検証のタスクにおいて、ReAct は単純な Wikipedia API と対話することで、推論における一般的な幻覚とエラー伝播の問題を克服します。推論の痕跡のないベースラインよりも解釈しやすい、タスクを解決するための人間のような手順を生成します。インタラクティブな意思決定ベンチマークでは、ReAct は、コンテキスト例が 1 つまたは 2 つしかない場合でも、模倣学習および強化学習の方法を大幅に上回ります。 推論、行動、観察のステップを織り交ぜることで、ReAct の根拠と信頼性は向上しますが、この構造によって推論ステップを策定する際の柔軟性が制限され、低下するため、一部のタスクでは思考連鎖プロンプトよりも推論エラー率が高くなります。 推論と行動の重要性研究者らは、さまざまなタスクにおける推論と行動の重要性を理解するためにアブレーション実験も行った。彼らは、ReAct の内部推論と外部アクションの組み合わせが、推論またはアクションのいずれか一方のみに焦点を当てたベースラインよりも一貫して優れていることを発見しました。これは、より効果的な意思決定のためにこれら 2 つのプロセスを統合することの価値を強調しています。 今後の方向性ReAct は有望な結果を示していますが、まだ改善の余地があります。研究者らは、ReAct をスケールアップしてより多くのタスクをトレーニングおよび操作し、強化学習などの補完的なパラダイムと組み合わせることを提案しています。さらに、より多くの人間が注釈を付けたデータを使用してモデルを微調整すると、パフォーマンスがさらに向上します。 結論はReAct は、よりスマートで汎用的な AI システムの開発に向けた一歩であり、Langchain ライブラリの非常に便利なエージェント機能も強化します。言語モデルにおける推論と動作を組み合わせることで、さまざまなタスクでパフォーマンスが向上し、解釈可能性と信頼性も向上することが実証されました。 AI が進歩し続けるにつれて、推論と動作の統合は、より有能で適応性の高い AI システムを作成する上で重要な役割を果たすようになります。 論文の宛先: |
<<: Stack OverflowがAI搭載製品「OverflowAI」を発表
>>: GPT-4 よりも優れており、クローズドソース モデルよりも優れています。コードラマの謎のバージョンが公開
携帯電話を使って顔をスキャンして支払いをするとき、会社の入退室管理を通過するとき、あるいは道路を運転...
序文ご存知のとおり、TiDB バージョン 5.1 では多くの新機能が追加されましたが、その 1 つが...
序文機械学習(ML)は、教師あり学習、教師なし学習、半教師あり学習などに分けられます。 1.1 教師...
人間は、脳内の神経系が外部環境の変化に継続的に適応するためにその構造を変える能力を持っていることを証...
今日の緊迫したサプライチェーンにおいて、最も脆弱なのはスキル不足である可能性があり、景気後退により短...
ジェイ・チョウの『本草綱目』のメロディーにのせて、劉恒紅の健康指導が再び始まった。 7日間でフォロワ...
AI飽和私は、Google やハーバード大学のコース、YouTube の完全なチュートリアルなど、...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
翻訳者 | 陳俊レビュー | Chonglou業界では、従来のメインフレーム アプリケーションのコー...
テスラのイーロン・マスク最高経営責任者(CEO)は現地時間1月16日、ソーシャルメディアXに同社の人...
ストレッチツリーの紹介スプレー ツリーは特殊な二分探索ツリーです。特別なのは、バイナリ検索ツリーであ...
ヘルスケアとウェルネスのダイナミックな分野では、ANI と生成 AI の組み合わせによる革命が進行し...