お茶や水を出すロボットを購入する見込みはありますか?メタとニューヨーク大学がOK-Robotを開発

「xx、テレビ台のリモコンを取ってきて。」家庭環境では、多くの家族が必然的にこの種の作業を命じられます。ペットの犬でさえも免疫がない場合があります。しかし、人間には自分のやりたいことができない時が必ずあるし、ペットの犬もそれを理解できないことがある。人間の仕事を助けるという究極の夢は、今もロボットの中にあります。

最近、ニューヨーク大学とMetaが開発したロボットがこのスキルを学習しました。「コーンフレークをテーブルからベッドサイドテーブルまで持って行って」と指示するだけで、ロボットはコーンフレークを自分で見つけ、ルートとそれに応じた動作を計画し、タスクを正常に完了することができます。さらに、物を整理したり、ゴミを捨てたりするのに役に立ちます。

このロボットはOK-Robotと呼ばれ、ニューヨーク大学とMetaの研究者によって開発されました。彼らは、視覚言語モデル（物体検出用）、ナビゲーション、把持の基本モジュールをオープンな知識ベースのフレームワークに統合し、ロボットの効率的なピックアンドプレース操作のためのソリューションを提供しました。私たちが年をとっても、お茶や水を出してくれるロボットを購入できるという希望はまだあるようです。

OK-Robot の位置付けにおける「オープンナレッジ」とは、大規模な公開データセットでトレーニングされた学習モデルを指します。 OK-Robot を新しい家庭環境に配置すると、iPhone からスキャンが取得されます。スキャン結果に基づいて、LangSam と CLIP を使用して高密度の視覚言語表現を計算し、それをセマンティックメモリに保存します。その後、拾う必要のあるオブジェクトに対する言語クエリが与えられ、クエリの言語表現が意味メモリと照合されます。次に、ナビゲーションモジュールとピッキングモジュールを順番に適用して、目的のオブジェクトに移動してそれをピックアップします。同様のプロセスを使用してオブジェクトを破棄することもできます。

OK-Robot を研究するために、研究者たちは 10 の実際の家庭環境でテストしました。実験を通じて、彼らは、これまでに見たことのない自然な家庭環境において、システムのゼロショット展開成功率が平均 58.5% であることを発見しました。ただし、この成功率は環境の「自然さ」に大きく依存します。クエリを改良し、空間を整理し、明らかに敵対的なオブジェクト（大きすぎる、半透明すぎる、滑りやすい）を除外することで、この成功率は約 82.4% に達することがわかったからです。

OK-Robot はニューヨーク市内の 10 か所の家庭環境で 171 件のピッキング作業を試みました。

要約すると、実験を通じて、彼らは次のような結論に達しました。

事前トレーニング済みの視覚言語モデルは、オープン語彙ナビゲーションに非常に適しています。CLIP や OWL-ViT などの現在のオープン語彙視覚言語モデルは、現実世界の任意のオブジェクトを認識し、ゼロショット方式でそれらのオブジェクトにナビゲートする上で優れたパフォーマンスを発揮します。
事前トレーニング済みの把持モデルは、モバイル操作に直接適用できます。VLM と同様に、大量のデータで事前トレーニングされた特殊なロボットモデルは、家庭内でのオープンボキャブラリの把持に直接適用できます。これらのロボットモデルでは、追加のトレーニングや微調整は必要ありません。
コンポーネントをどのように組み合わせるかが重要です。研究者は、事前トレーニング済みのモデルの場合、トレーニングなしで単純なステートマシンモデルを使用して組み合わせることができることを発見しました。また、ヒューリスティックスを使用してロボットの物理的限界に対抗すると、現実世界での成功率が高くなることを発見しました。
いくつかの課題が残っています。任意のホームでのゼロショット操作の大きな課題を考慮して、OK-Robot は以前の作業を改善しました。障害モードを分析することで、視覚言語モデル、ロボットモデル、ロボットの形態に大きな改善が加えられることがわかり、オープンナレッジ操作エージェントのパフォーマンスが直接向上します。

オープンナレッジロボティクスの分野における他の研究者の研究を奨励し支援するために、著者らはOK-Robotのコードとモジュールを共有すると述べている。詳細については、https://ok-robot.github.io を参照してください。

論文タイトル: OK-Robot: ロボット工学のためのオープン知識モデルの統合において本当に重要なこと
論文リンク: https://arxiv.org/pdf/2401.12202.pdf

技術的な要素と方法

この研究は主に、A を B から持ち上げて C に置くという問題を扱っています。ここで、A はオブジェクトであり、B と C は現実世界の環境内の場所です。これを実現するには、提案されたシステムに、オープンボキャブラリオブジェクトナビゲーションモジュール、オープンボキャブラリ RGB-D 把持モジュール、およびオブジェクトを解放または配置するためのドロップヒューリスティックモジュールが含まれている必要があります。

オープン語彙オブジェクトナビゲーション

最初のステップは部屋をスキャンすることです。オープンボキャブラリオブジェクトナビゲーションは、CLIP-Fields アプローチに従い、iPhone を使用して家庭環境を手動でスキャンする事前マッピングフェーズを想定しています。この手動スキャンは、iPhone の Record3D アプリを使用して撮影したホームビデオを単純にスキャンしたもので、位置を示す一連の RGB-D 画像が生成されました。

各部屋のスキャンには 1 分もかからず、情報が収集されると、RGB-D 画像がカメラのポーズと位置とともにプロジェクトライブラリにエクスポートされ、マッピングされました。録画では、地表だけでなく、環境内の物体や容器も記録する必要があります。

次のステップは物体検出です。スキャンの各フレームでは、スキャンされたコンテンツに対してオープン語彙オブジェクト検出器が処理されます。この論文では、OWL-ViT オブジェクト検出器を選択しています。この方法は、予備クエリでより優れたパフォーマンスを発揮するためです。各フレームに検出器を適用し、各オブジェクトの境界ボックス、CLIP 埋め込み、検出器の信頼度を抽出し、ナビゲーションモジュールのオブジェクトストレージモジュールに渡します。

次に、オブジェクト中心のセマンティックストレージが実行されます。この論文では、このステップを実行するために VoxelMap を使用しています。具体的には、カメラで収集された深度画像とポーズを使用して、オブジェクトマスクを現実世界の座標に逆投影します。これにより、各ポイントに CLIP からの関連するセマンティックベクトルがあるポイントクラウドが提供されます。

これに続いてクエリメモリモジュールがあります。言語クエリが与えられると、この論文では CLIP 言語エンコーダーを使用してそれをセマンティックベクトルに変換します。各ボクセルは家庭内の実際の位置に関連付けられているため、図 2 (a) と同様に、クエリオブジェクトが最も見つかる可能性の高い場所を見つけることができます。

必要に応じて、この記事では「A が B 上にある」を「A が B を閉じる」として実装します。これを行うには、クエリ A は最初の 10 個のポイントを選択し、クエリ B は最初の 50 個のポイントを選択します。次に、10×50 ペアのユークリッド距離が計算され、最短距離 (A、B) に関連付けられた点 A が選択されます。

上記のプロセスを完了したら、次のステップは現実世界のオブジェクトに移動することです。現実世界の 3D 位置座標が取得されると、それをロボットのナビゲーションターゲットとして使用して、操作フェーズを初期化できます。ナビゲーションモジュールは、ロボットがターゲットオブジェクトを操作できるように、ロボットをアームの届く範囲に配置する必要があります。

現実世界の物体のロボットによる把持

オープン語彙ナビゲーションとは異なり、把握タスクを完了するには、アルゴリズムが現実世界の任意のオブジェクトと物理的に対話する必要があり、この部分がより困難になります。したがって、本論文では、事前トレーニング済みの把持モデルを使用して現実世界の把持姿勢を生成し、言語条件フィルタリングに VLM を使用することを選択します。

この論文で使用されている把持生成モジュールは AnyGrasp であり、単一の RGB 画像とポイントクラウドが与えられたシーンで平行ジョーグリッパーを使用して衝突のない把持を生成します。

AnyGrasp は、シーン内の可能な把持（図 3 の列 2）を提供します。これには、把持ポイント、幅、高さ、深さ、および各把持における未調整のモデル信頼性を表す把持スコアが含まれます。

言語クエリを使用した把持のフィルタリング: AnyGrasp から取得した把持の提案に対して、この論文では LangSam を採用して把持をフィルタリングします。提案されたすべてのグリップポイントを画像に投影し、オブジェクトマスク内に含まれるグリップポイントを見つけます (図 3 の 4 列目)。

グリップ実行。最適な把持が決定されると（図 3 の列 5）、単純な事前把持方法を使用して対象物を把持することができます。

オブジェクトを解放または配置するためのヒューリスティックモジュール

物体を掴んだら、次はそれをどこに置くかを決めます。オブジェクトが平らな面に置かれていることを前提とする HomeRobot のベースライン実装とは異なり、この論文では、シンク、ビン、箱、バッグなどの凹んだオブジェクトもカバーするように拡張しています。

ナビゲーション、グリップ、配置が整ったので、これらを組み合わせるのは簡単で、この方法はどの新しい家にも直接適用できます。新しい家庭環境の場合、この研究では 1 分以内に部屋をスキャンできます。その後、それを VoxelMap に処理するのに 5 分もかかりません。完成すると、ロボットはすぐに選択したフィールドに配置され、動作を開始できます。新しい環境に到着してから、その中で自律的に動作を開始するまで、システムが最初のピックアンドプレースタスクを完了するのにかかる時間は平均 10 分未満です。

実験

OK-Robot は、10 回以上の家庭内実験で、ピックアンドプレースタスクの成功率 58.5% を達成しました。

この研究では、OK-Robot の故障モードをより深く理解するために、OK-Robot の詳細な調査も実施しました。調査では、失敗の主な理由は操作上の失敗であることがわかりました。しかし、詳しく調べてみると、失敗の理由はロングテールであることがわかりました。図 4 に示すように、失敗の上位 3 つの理由は、セマンティックメモリから移動先の正しいオブジェクトを取得できないこと (9.3%)、操作モジュールから取得したジェスチャを完了するのが難しいこと (8.0%)、ハードウェア上の理由 (7.5%) でした。

図 5 からわかるように、OK-Robot で使用される VoxelMap は、他のセマンティックメモリモジュールよりもわずかに優れています。把持モジュールに関しては、AnyGrasp は他の把持方法を大幅に上回り、相対スケールでは最良候補 (トップダウン把持) を 50% 近く上回ります。しかし、HomeRobot のトップダウン把持が、ヒューリスティックアルゴリズムに基づくオープンソースの AnyGrasp ベースラインや Contact-GraspNet を上回っているという事実は、真に汎用的な把持モデルの構築が依然として難しいことを示しています。

図 6 は、さまざまな段階での OK-Robot の障害の完全な分析を示しています。分析の結果、研究者が環境をクリーンアップしてぼやけた物体を除去すると、ナビゲーションの精度が向上し、全体的なエラー率が 15% から 12% に、そして最終的には 4% に低下することが示されました。同様に、研究者が環境の乱雑さを一掃すると、精度が向上し、エラー率は 25% から 16% に、そして最終的には 13% に低下しました。

詳細については、原文論文を参照してください。

<<:

>>: 大規模モデルの推論速度が 3.6 倍に向上しました。「Medusa」の論文はこちらです。Jia Yangqing: 最もエレガントな加速推論ソリューションの 1 つ