北京大学の具現化知能チームは、人間のニーズに合わせてロボットをより効率的にするための需要主導型ナビゲーションを提案した。

ロボットに手伝ってもらいたい場合は、通常、より正確な指示を与える必要がありますが、指示の実際の実装は理想的ではない可能性があります。実際の環境を考えると、ロボットに特定のオブジェクトを見つけるように依頼した場合、そのオブジェクトは現在の環境に実際には存在しない可能性があり、ロボットはいずれにしてもそれを見つけることができません。しかし、ユーザーが必要とするオブジェクトと同様の機能を持ち、ユーザーのニーズを満たすことができる別のオブジェクトが環境内に存在する可能性はありますか?これが、タスクの指示として「要件」を使用する利点です。

最近、北京大学の Dong Hao 氏のチームが新しいナビゲーションタスクである Demand-driven Navigation (DDN) を提案し、これが NeurIPS 2023 に採択されました。このタスクでは、ロボットはユーザーからの要求指示に基づいて、ユーザーのニーズを満たすアイテムを見つける必要があります。同時に、董浩氏のチームは、要求指示に基づいてアイテムの属性機能を学習することも提案し、これによりロボットがオブジェクトを見つける成功率が効果的に向上しました。

論文アドレス: https://arxiv.org/pdf/2309.08138.pdf
プロジェクトのホームページ: https://sites.google.com/view/demand-driven-navigation/home

ミッションステートメント

具体的には、タスクの開始時に、ロボットは「お腹が空いた」や「喉が渇いた」などの要求指示を受け取り、次にロボットはシーン内で要求を満たすオブジェクトを見つける必要があります。したがって、需要主導型ナビゲーションは本質的にはオブジェクトを見つけるタスクです。同様のタスクは、ビジュアルオブジェクトナビゲーションという以前から存在していました。これら 2 つのタスクの違いは、前者はロボットに「自分のニーズは何か」を伝えるのに対し、後者はロボットに「自分が欲しいアイテムは何か」を伝えることです。

ニーズを指示として受け取るということは、ロボットがユーザーのニーズを満たすアイテムを見つける前に、指示の内容を推論し、現在のシーン内のアイテムの種類を探索する必要があることを意味します。この観点から見ると、需要主導型のナビゲーションは視覚的なオブジェクトナビゲーションよりもはるかに困難です。難易度は増しましたが、ロボットが要求指示に基づいてアイテムを見つけることを学習すると、依然として多くの利点があります。例えば：

ユーザーは、シーンに何があるのかを考慮せずに、ニーズに基づいて指示を与えるだけで済みます。
要件を指示として使用すると、ユーザーのニーズが満たされる可能性が高まります。例えば、「喉が渇いた」ときに、ロボットに「お茶」を探してと頼むのと、「喉の渇きを癒すもの」を探してと頼むのでは、明らかに後者の方が範囲が広くなります。
自然言語で記述された要件は記述空間が広く、より詳細で正確な要件を提示できます。

このようなロボットを訓練するには、環境が訓練信号を提供できるように、必要な指示からオブジェクトへのマッピング関係を確立する必要があります。コストを削減するために、Dong Hao 氏のチームは、大規模な言語モデルに基づく「半自動」生成方法を提案しました。まず、GPT-3.5 を使用して、シーン内のオブジェクトが満たすことができるニーズを生成し、次に、要件を満たさないものを手動で除外します。

アルゴリズム設計

同じニーズを満たすアイテムは似たような性質を持っていることを考慮すると、そのようなアイテムの属性の特性を学習できれば、ロボットはこれらの属性特性を使用してアイテムを見つけることができると思われます。たとえば、「喉が渇いた」という需要に対して、必要なアイテムは「喉の渇きを癒す」という属性を持つ必要があり、「ジュース」と「お茶」はどちらもこの属性を持っています。ここで注目すべきは、アイテムは異なるニーズの下で異なる属性を示す場合があるということです。たとえば、「水」は「衣類を洗う」というニーズの下で「衣類をきれいにする」という属性を示す場合もあれば、「喉の渇きを癒す」というニーズの下で「喉の渇きを癒す」という属性を示す場合もあります。

属性学習フェーズ

では、どうすれば「喉の渇きを癒す」や「衣服を洗う」といったニーズをモデルに理解させることができるのでしょうか?一定の需要がある商品の性質に注目するのは、比較的安定した常識です。近年、大規模言語モデル (LLM) の台頭により、LLM は人間社会の常識を驚くほど理解していることが実証されています。そこで、北京大学の董浩氏のチームは、この常識をLLMから学ぶことにしました。彼らはまず、LLM に多くの要求指示 (図では Language-grounding Demand、LGD と呼ぶ) を生成させ、次にどのオブジェクトがこれらの要求指示を満たすことができるかを LLM に尋ねました (図では Language-grounding Object、LGO と呼ぶ)。

ここで注目すべきは、接頭辞 Language-grounding は、これらの要求/オブジェクトが LLM から取得でき、特定のシーンに依存しないことを強調している点です。下の図の World-grounding は、これらの要求/オブジェクトが特定の環境 (ProcThor、Replica、その他のシーンデータセットなど) と密接に統合されていることを強調しています。

次に、LGD 下での LGO の特性を取得するために、著者らは BERT を使用して LGD をエンコードし、CLIP-Text-Encoder を使用して LGO をエンコードし、それらを連結して Demand-object Features を取得しました。最初にアイテムの属性が導入されると、「類似性」が生まれることに注意してください。著者はこの類似性を利用して「正のサンプルと負のサンプル」を定義し、次に対照学習を使用して「アイテムの属性」をトレーニングします。具体的には、連結された 2 つの需要オブジェクト機能の場合、これら 2 つの機能に対応するアイテムが同じ需要を満たすことができる場合、これら 2 つの機能は互いに正のサンプルになります (たとえば、図のアイテム a とアイテム b はどちらも需要 D1 を満たすことができるため、DO1-a と DO1-b は互いに正のサンプルになります)。その他の連結は互いに負のサンプルになります。著者らは、Demand-object Features を TransformerEncoder アーキテクチャの属性モジュールに入力した後、InfoNCE Loss を使用してトレーニングを行いました。

ナビゲーション戦略の学習段階

比較学習を通じて、属性モジュールは LLM が提供する常識を学習しました。ナビゲーション戦略学習フェーズでは、属性モジュールのパラメータを直接インポートし、A* アルゴリズムによって収集された軌跡を模倣学習を使用して学習します。ある時間ステップで、著者は DETR モデルを使用して現在の視野内のオブジェクトをセグメント化し、World-grounding Object を取得してから、それを CLIP-Visual-Endocer でエンコードします。残りのプロセスは、属性学習フェーズと同様です。最後に、必要な命令の BERT 機能、グローバル画像機能、および属性機能が連結され、Transformer モデルに送信されて、最終的にアクションが出力されます。

注目すべきは、著者らが属性学習段階で CLIP-Text-Encoder を使用し、ナビゲーションポリシー学習段階で CLIP-Visual-Encoder を使用したことです。ここでは、CLIP モデルのビジョンとテキストの強力なアライメント機能が巧みに使用され、LLM から学習したテキストの常識が各タイムステップでビジョンに転送されます。

実験結果

実験は、AI2Thor シミュレーターと ProcThor データセットで実施されました。実験結果によると、この方法は、従来のさまざまな視覚オブジェクトナビゲーションアルゴリズムや大規模言語モデルでサポートされているアルゴリズムよりも大幅に優れていることがわかりました。

VTN は、事前に設定されたオブジェクトに対してのみナビゲーションタスクを実行できる、クローズドボキャブラリナビゲーションアルゴリズムです。著者らはアルゴリズムのいくつかのバリエーションを作成しましたが、必要な命令の BERT 機能を入力として使用したか、命令の GPT 解析結果を入力として使用したかに関係なく、アルゴリズムの結果はあまり理想的ではありませんでした。 ZSON などのオープン語彙ナビゲーションアルゴリズムに切り替えると、CLIP が要求指示を画像と適切に調整しなかったため、ZSON のいくつかのバリアントは要求駆動型ナビゲーションタスクを適切に実行できませんでした。ただし、Procthor データセットのシーン領域が広く、探索効率が低いため、ヒューリスティック検索 + LLM に基づく一部のアルゴリズムの成功率はそれほど高くありません。 GPT-3-Prompt や MiniGPT-4 などの純粋な LLM アルゴリズムは、シーン内の見えない場所に対する推論能力が低いため、要件を満たすオブジェクトを効率的に検出することができません。

アブレーション実験では、属性モジュールによってナビゲーションの成功率が大幅に向上することが示されています。著者らは、t-SNE グラフが、属性モジュールが要求条件付き対照学習を通じてオブジェクトの属性特性を正常に学習することをよく示していることを示しています。属性モジュールアーキテクチャを MLP に置き換えた後、パフォーマンスが低下し、TransformerEncoder アーキテクチャが属性機能のキャプチャに適していることが示されました。 BERT は必要な命令の特徴を非常にうまく抽出し、未知の命令の一般化を向上させます。

以下にいくつかの視覚化を示します。

本研究の責任著者である董浩博士は、現在、北京大学先端コンピューティング研究センターの助教授、博士課程の指導者、Boya Young Scholar、Zhiyuan Scholarを務めています。2019年に北京大学ハイパープレーンラボを設立し、主導しました。NeurIPS、ICLR、CVPR、ICCV、ECCVなどのトップクラスの国際会議/ジャーナルに40以上の論文を発表し、Google Scholarで4,700回以上引用されています。ACM MM Best Open Source Software AwardとOpenI Outstanding Project Awardを受賞しています。また、NeurIPS、CVPR、AAAI、ICRAなど、数多くのトップ国際会議のフィールドチェアや副編集長を務め、数多くの国家および省レベルのプロジェクトに携わり、科学技術省の新世代人工知能2030主要プロジェクトを主宰しました。

論文の筆頭著者である王洪成氏は現在、北京大学コンピュータサイエンス学院の博士課程2年生である。彼の研究対象は、ロボット工学、コンピュータービジョン、心理学です。彼は、人間の行動、認知、動機の観点から、人間とロボットの関係を調和させたいと考えています。

<<: ChatGPTが見知らぬ人の自撮り写真を流出！モデルによって個人データが盗まれたのですか?ネットユーザーはパニックに

>>: 物理学界に嵐を巻き起こした室温超伝導の論文は、8人の共著者によって報告された後、ネイチャー誌によって撤回された。第一著者は調査中である。