北京大学と智遠は、大規模モデルが自律的にオープンワールドを探索できるようにするトレーニングフレームワークLLaMA-Riderを提案した。

大規模言語モデルは、強力で普遍的な言語生成および理解機能を備えているため、汎用的なインテリジェントエージェントになる可能性を示しています。同時に、オープンな環境での探索と学習は、汎用インテリジェントエージェントの重要な機能の 1 つです。したがって、大規模な言語モデルをオープンワールドにどのように適応させるかが重要な研究課題です。

この問題を解決するために、北京大学と北京人工知能学院のチームは、大規模なモデルがオープンワールドでタスクを探索し、データを収集し、戦略を学習できるようにする LLaMA-Rider を提案しました。これにより、インテリジェントエージェントが Minecraft 内で自律的に探索し、知識を獲得し、さまざまなタスクを解決する方法を学習できるようになり、自律性と汎用性が向上します。

オープンワールドを自分で探検しよう

論文リンク: https://arxiv.org/abs/2310.08922
コードリンク: https://github.com/PKU-RL/LLaMA-Rider

1. 環境からのフィードバックによる探索と学習

LLaMA-Rider は、大規模言語モデル (LLM) を環境に適応させ、環境内で複数のタスクを解決する能力を向上させることを目的としています。 LLM が事前トレーニング段階で獲得した知識と実際の環境との間に矛盾が生じる可能性が高く、誤った判断につながることがよくあります。この問題を解決するために、既存の方法の中には、プロンプトエンジニアリングを使用して、LLM が環境情報と頻繁にやり取りすることで環境情報を取得できるようにしながらも、LLM を更新しないものがあります。強化学習を使用して LLM をオンラインで微調整する方法もありますが、計算コストが高く、マルチタスクや複雑なタスクに拡張するのは困難です。

LLaMA-Rider はこれに対する新しいアプローチを提案します。まず、環境からのフィードバック情報を使用し、LLM 独自の機能を利用して環境を探索し、成功体験を収集します。その後、LLaMA-Rider は学習のために経験を教師ありデータセットに統合し、独自の知識を更新します。このような 2 段階のトレーニングフレームワークにより、LLaMA-Rider は Minecraft 環境の 30 のタスクで ChatGPT タスクプランナーの平均パフォーマンスを上回り、新しいタスクに一般化する能力を実証できます。

探索フェーズでは、LLaMA-Rider はフィードバック修正メカニズムを使用してアクティブな探索を実行します。各タイムステップで、LLaMA-Rider はテキスト形式の環境情報とタスク情報を受け取り、次のステップを決定します。環境との知識のギャップにより、決定が環境で実行されず、環境からのフィードバック情報がトリガーされる可能性があります。このフィードバック情報は LLaMA-Rider に再度入力され、決定を修正するようにガイドされます。 LLaMA-Rider は、LLM 独自のコンテキスト理解機能と環境フィードバック情報を活用して、オープンワールドを効率的に探索できます。

LLM のテキスト出力を環境のアクション空間に一致させるために、LLaMA-Rider は事前にトレーニングされたスキルのセットをスキルライブラリとして使用し、スキル検索モジュールを使用して LLM の出力テキストをスキルライブラリ内のスキルの説明と一致させ、最も近いスキルを取得します。スキルの説明は環境内のアクションよりも意味が深いため、このアプローチでは LLM のパワーをより有効に活用できます。

さらに、LLaMA-Rider はサブタスク再ラベル付け方式を使用して、入力内の元のタスク情報を探索プロセス中に現在完了しているサブタスク情報に置き換えます。これにより、LLM は探索プロセス中に現在のサブ目標に集中し、タスクの成功率を向上させることができます。

学習フェーズでは、探索中に収集された経験が、LLM の教師あり微調整 (SFT) のための教師ありデータセットに統合されます。データセットではサブタスクの再ラベル付け方法も使用されており、LLaMA-Rider がタスク間のサブタスクの互換性を学習し、戦略の一般化能力を向上できるようにしています。

2. 実験結果

LLaMA-Rider で使用される大規模言語モデルは、最近リリースされた LLaMA-2-70B-chat です。 Minecraft の 3 つのカテゴリの合計 30 のタスクにおいて、LLaMA-Rider は ChatGPT に基づくタスクプランナーよりも優れたパフォーマンスを発揮し、学習後に LLaMA-Rider が完了できたタスクの数も、探索フェーズで正常に完了できた数を上回り、オープンワールドで LLaMA-Rider が継続的に学習して複数のタスクを解決できることが実証されました。

強化学習 (RL) 手法と比較して、LLaMA-Rider は、高いサンプリング効率と低いトレーニングコストという利点があります。比較的単純で、完了するのに必要な手順が少ない木材関連のタスクであっても、RL 方法ではトレーニング結果を達成するのが難しく、強化学習トレーニング方法を大規模なアクション空間や複雑なシナリオに拡張することが難しいことを示しています。 LLaMA-Rider は、探索フェーズでデータ収集を完了するために 5 ～ 10 のタスク探索のみを使用し、学習フェーズで 1.3k サンプルのみを含むデータセットでトレーニングすることで、改善された結果を達成しました。

さらに著者らは、上記の 30 のタスクの探索的学習の後、学習プロセス中に探索されなかったより困難な鉄鉱石関連のタスクをテストする際にも、LLaMA-Rider は改善された結果を達成できることを発見しました。これは、LLaMA-Rider によって学習された意思決定能力の一般化をさらに実証しています。

アブレーション実験では、著者らはより多くのサブタスクを含む石関連のタスクを使用して、サブタスクの再ラベル付け方法がタスクの成功率とタスクの一般化能力に果たす重要な役割を検証しました。

さらに、LLaMA-Rider はタスクの決定に関連するデータのみを学習しましたが、著者らがタスクに関連する質問をすると、LLaMA-Rider はより正確な回答も返しました。これは、LLaMA-Rider がトレーニングの過程で環境に関する知識も学習したことを示しており、LLaMA-Rider が環境に関する知識と整合する役割を果たしていることが証明されました。

3. まとめ

著者らは、大規模言語モデルが環境からのフィードバックと自身の能力に基づいてオープンワールドを自律的に探索し、収集した経験に基づいて効率的な学習を完了できるようにするLLaMA-Rider大規模言語モデルトレーニングフレームワークを提案しました。Minecraft環境では、ChatGPTタスクプランナーを含む他の方法よりも優れたマルチタスク解決機能を実現し、大規模言語モデルがオープンワールドへの適応性を獲得できるようにしました。さらに、過去のタスクの経験を活用して新しいタスクに一般化できる LLaMA-Rider の能力は、大規模モデルを使用した生涯にわたる探索学習に対するこのアプローチの可能性を示しています。

<<: 物体検出と注釈の時代は終わったのでしょうか?

>>: