お茶や水を出すロボットを購入する見込みはありますか?メタとニューヨーク大学がOK-Robotを開発

お茶や水を出すロボットを購入する見込みはありますか?メタとニューヨーク大学がOK-Robotを開発

「xx、テレビ台のリモコンを取ってきて。」 家庭環境では、多くの家族が必然的にこの種の作業を命じられます。ペットの犬でさえも免疫がない場合があります。しかし、人間には自分のやりたいことができない時が必ずあるし、ペットの犬もそれを理解できないことがある。人間の仕事を助けるという究極の夢は、今もロボットの中にあります。

最近、ニューヨーク大学とMetaが開発したロボットがこのスキルを学習しました。 「コーンフレークをテーブルからベッドサイドテーブルまで持って行って」と指示するだけで、ロボットはコーンフレークを自分で見つけ、ルートとそれに応じた動作を計画し、タスクを正常に完了することができます。さらに、物を整理したり、ゴミを捨てたりするのに役に立ちます。



このロボットはOK-Robotと呼ばれ、ニューヨーク大学とMetaの研究者によって開発されました。彼らは、視覚言語モデル(物体検出用)、ナビゲーション、把持の基本モジュールをオープンな知識ベースのフレームワークに統合し、ロボットの効率的なピックアンドプレース操作のためのソリューションを提供しました。私たちが年をとっても、お茶や水を出してくれるロボットを購入できるという希望はまだあるようです。

OK-Robot の位置付けにおける「オープン ナレッジ」とは、大規模な公開データセットでトレーニングされた学習モデルを指します。 OK-Robot を新しい家庭環境に配置すると、iPhone からスキャンが取得されます。スキャン結果に基づいて、LangSam と CLIP を使用して高密度の視覚言語表現を計算し、それをセマンティック メモリに保存します。その後、拾う必要のあるオブジェクトに対する言語クエリが与えられ、クエリの言語表現が意味メモリと照合されます。次に、ナビゲーション モジュールとピッキング モジュールを順番に適用して、目的のオブジェクトに移動してそれをピックアップします。同様のプロセスを使用してオブジェクトを破棄することもできます。

OK-Robot を研究するために、研究者たちは 10 の実際の家庭環境でテストしました。実験を通じて、彼らは、これまでに見たことのない自然な家庭環境において、システムのゼロショット展開成功率が平均 58.5% であることを発見しました。ただし、この成功率は環境の「自然さ」に大きく依存します。クエリを改良し、空間を整理し、明らかに敵対的なオブジェクト(大きすぎる、半透明すぎる、滑りやすい)を除外することで、この成功率は約 82.4% に達することがわかったからです。

OK-Robot はニューヨーク市内の 10 か所の家庭環境で 171 件のピッキング作業を試みました。

要約すると、実験を通じて、彼らは次のような結論に達しました。

  • 事前トレーニング済みの視覚言語モデルは、オープン語彙ナビゲーションに非常に適しています。CLIP や OWL-ViT などの現在のオープン語彙視覚言語モデルは、現実世界の任意のオブジェクトを認識し、ゼロショット方式でそれらのオブジェクトにナビゲートする上で優れたパフォーマンスを発揮します。
  • 事前トレーニング済みの把持モデルは、モバイル操作に直接適用できます。VLM と同様に、大量のデータで事前トレーニングされた特殊なロボット モデルは、家庭内でのオープン ボキャブラリの把持に直接適用できます。これらのロボット モデルでは、追加のトレーニングや微調整は必要ありません。
  • コンポーネントをどのように組み合わせるかが重要です。研究者は、事前トレーニング済みのモデルの場合、トレーニングなしで単純なステートマシン モデルを使用して組み合わせることができることを発見しました。また、ヒューリスティックスを使用してロボットの物理的限界に対抗すると、現実世界での成功率が高くなることを発見しました。
  • いくつかの課題が残っています。任意のホームでのゼロショット操作の大きな課題を考慮して、OK-Robot は以前の作業を改善しました。障害モードを分析することで、視覚言語モデル、ロボット モデル、ロボットの形態に大きな改善が加えられることがわかり、オープン ナレッジ操作エージェントのパフォーマンスが直接向上します。

オープンナレッジロボティクスの分野における他の研究者の研究を奨励し支援するために、著者らはOK-Robotのコードとモジュールを共有すると述べている。詳細については、https://ok-robot.github.io を参照してください。


  • 論文タイトル: OK-Robot: ロボット工学のためのオープン知識モデルの統合において本当に重要なこと
  • 論文リンク: https://arxiv.org/pdf/2401.12202.pdf

技術的な要素と方法

この研究は主に、A を B から持ち上げて C に置くという問題を扱っています。ここで、A はオブジェクトであり、B と C は現実世界の環境内の場所です。これを実現するには、提案されたシステムに、オープン ボキャブラリ オブジェクト ナビゲーション モジュール、オープン ボキャブラリ RGB-D 把持モジュール、およびオブジェクトを解放または配置するためのドロップ ヒューリスティック モジュールが含まれている必要があります。

オープン語彙オブジェクトナビゲーション

最初のステップは部屋をスキャンすることです。オープン ボキャブラリ オブジェクト ナビゲーションは、CLIP-Fields アプローチに従い、iPhone を使用して家庭環境を手動でスキャンする事前マッピング フェーズを想定しています。この手動スキャンは、iPhone の Record3D アプリを使用して撮影したホームビデオを単純にスキャンしたもので、位置を示す一連の RGB-D 画像が生成されました。

各部屋のスキャンには 1 分もかからず、情報が収集されると、RGB-D 画像がカメラのポーズと位置とともにプロジェクト ライブラリにエクスポートされ、マッピングされました。録画では、地表だけでなく、環境内の物体や容器も記録する必要があります。

次のステップは物体検出です。スキャンの各フレームでは、スキャンされたコンテンツに対してオープン語彙オブジェクト検出器が処理されます。この論文では、OWL-ViT オブジェクト検出器を選択しています。この方法は、予備クエリでより優れたパフォーマンスを発揮するためです。各フレームに検出器を適用し、各オブジェクトの境界ボックス、CLIP 埋め込み、検出器の信頼度を抽出し、ナビゲーション モジュールのオブジェクト ストレージ モジュールに渡します。

次に、オブジェクト中心のセマンティック ストレージが実行されます。この論文では、このステップを実行するために VoxelMap を使用しています。具体的には、カメラで収集された深度画像とポーズを使用して、オブジェクト マスクを現実世界の座標に逆投影します。これにより、各ポイントに CLIP からの関連するセマンティック ベクトルがあるポイント クラウドが提供されます。

これに続いてクエリ メモリ モジュールがあります。言語クエリが与えられると、この論文では CLIP 言語エンコーダーを使用してそれをセマンティック ベクトルに変換します。各ボクセルは家庭内の実際の位置に関連付けられているため、図 2 (a) と同様に、クエリ オブジェクトが最も見つかる可能性の高い場所を見つけることができます。

必要に応じて、この記事では「A が B 上にある」を「A が B を閉じる」として実装します。これを行うには、クエリ A は最初の 10 個のポイントを選択し、クエリ B は最初の 50 個のポイントを選択します。次に、10×50 ペアのユークリッド距離が計算され、最短距離 (A、B) に関連付けられた点 A が選択されます。

上記のプロセスを完了したら、次のステップは現実世界のオブジェクトに移動することです。現実世界の 3D 位置座標が取得されると、それをロボットのナビゲーション ターゲットとして使用して、操作フェーズを初期化できます。ナビゲーション モジュールは、ロボットがターゲット オブジェクトを操作できるように、ロボットをアームの届く範囲に配置する必要があります。

現実世界の物体のロボットによる把持

オープン語彙ナビゲーションとは異なり、把握タスクを完了するには、アルゴリズムが現実世界の任意のオブジェクトと物理的に対話する必要があり、この部分がより困難になります。したがって、本論文では、事前トレーニング済みの把持モデルを使用して現実世界の把持姿勢を生成し、言語条件フィルタリングに VLM を使用することを選択します。

この論文で使用されている把持生成モジュールは AnyGrasp であり、単一の RGB 画像とポイント クラウドが与えられたシーンで平行ジョー グリッパーを使用して衝突のない把持を生成します。

AnyGrasp は、シーン内の可能な把持(図 3 の列 2)を提供します。これには、把持ポイント、幅、高さ、深さ、および各把持における未調整のモデル信頼性を表す把持スコアが含まれます。

言語クエリを使用した把持のフィルタリング: AnyGrasp から取得した把持の提案に対して、この論文では LangSam を採用して把持をフィルタリングします。提案されたすべてのグリップ ポイントを画像に投影し、オブジェクト マスク内に含まれるグリップ ポイントを見つけます (図 3 の 4 列目)。

グリップ実行。最適な把持が決定されると(図 3 の列 5)、単純な事前把持方法を使用して対象物を把持することができます。

オブジェクトを解放または配置するためのヒューリスティックモジュール

物体を掴んだら、次はそれをどこに置くかを決めます。オブジェクトが平らな面に置かれていることを前提とする HomeRobot のベースライン実装とは異なり、この論文では、シンク、ビン、箱、バッグなどの凹んだオブジェクトもカバーするように拡張しています。

ナビゲーション、グリップ、配置が整ったので、これらを組み合わせるのは簡単で、この方法はどの新しい家にも直接適用できます。新しい家庭環境の場合、この研究では 1 分以内に部屋をスキャンできます。その後、それを VoxelMap に処理するのに 5 分もかかりません。完成すると、ロボットはすぐに選択したフィールドに配置され、動作を開始できます。新しい環境に到着してから、その中で自律的に動作を開始するまで、システムが最初のピックアンドプレース タスクを完了するのにかかる時間は平均 10 分未満です。

実験

OK-Robot は、10 回以上の家庭内実験で、ピックアンドプレース タスクの成功率 58.5% を達成しました。

この研究では、OK-Robot の故障モードをより深く理解するために、OK-Robot の詳細な調査も実施しました。調査では、失敗の主な理由は操作上の失敗であることがわかりました。しかし、詳しく調べてみると、失敗の理由はロングテールであることがわかりました。図 4 に示すように、失敗の上位 3 つの理由は、セマンティック メモリから移動先の正しいオブジェクトを取得できないこと (9.3%)、操作モジュールから取得したジェスチャを完了するのが難しいこと (8.0%)、ハードウェア上の理由 (7.5%) でした。

図 5 からわかるように、OK-Robot で使用される VoxelMap は、他のセマンティック メモリ モジュールよりもわずかに優れています。把持モジュールに関しては、AnyGrasp は他の把持方法を大幅に上回り、相対スケールでは最良候補 (トップダウン把持) を 50% 近く上回ります。しかし、HomeRobot のトップダウン把持が、ヒューリスティック アルゴリズムに基づくオープンソースの AnyGrasp ベースラインや Contact-GraspNet を上回っているという事実は、真に汎用的な把持モデルの構築が依然として難しいことを示しています。

図 6 は、さまざまな段階での OK-Robot の障害の完全な分析を示しています。分析の結果、研究者が環境をクリーンアップしてぼやけた物体を除去すると、ナビゲーションの精度が向上し、全体的なエラー率が 15% から 12% に、そして最終的には 4% に低下することが示されました。同様に、研究者が環境の乱雑さを一掃すると、精度が向上し、エラー率は 25% から 16% に、そして最終的には 13% に低下しました。

詳細については、原文論文を参照してください。

<<: 

>>:  大規模モデルの推論速度が 3.6 倍に向上しました。「Medusa」の論文はこちらです。Jia Yangqing: 最もエレガントな加速推論ソリューションの 1 つ

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

この記事では機械学習における3つの特徴選択手法を紹介します。

機械学習では特徴を選択する必要があり、人生でも同じではないでしょうか?特徴選択とは、利用可能な多数の...

Zoomに狂った外国人がビデオ会議ロボットを開発、同僚たちはすでに大笑い

[[321983]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

Tech Neo 11月号: コンテナプラットフォーム管理の実践

51CTO.com+プラットフォームは、オリジナルの技術コンテンツの選択と絶妙なレイアウトを通じて、...

5分間の技術講演 | GPT-4——マルチモーダル大規模モデルの新機能と利点

パート01 GPT-3.5との違い1.1 GPT-4が入力できる単語数は25,000語に大幅に増加写...

1 つの記事で 26 個のニューラル ネットワーク活性化関数 (ReLU から Sinc まで) を紹介します

ニューラル ネットワークでは、活性化関数によって、指定された入力セットからノードの出力が決定されます...

ドローン基地局は被災地の通信復旧にどのように役立つのでしょうか?

災害時において、通信は途切れることのできない生命線です。 [[412620]] 7月21日、河南省の...

百度は「ニューラル条件付きランダムフィールド」病理スライス分析アルゴリズムをオープンソース化、専門病理学者よりも高い精度を実現

最近、百度研究所は論文で「ニューラル条件付きランダムフィールド」病理スライス分析アルゴリズムを提案し...

世界の AI 人材レポートが発表されました: 清華大学が 3 位、北京大学が 6 位にランクイン!シリコンバレーが40万人を解雇、プログラマーの面接は12回

先ほど、グローバル AI 人材レポートが発表されました。世界のトップクラスの AI 人材のうち、約半...

インテリジェントビル通信ネットワークシステムのセキュリティ管理

セキュリティ管理は常にネットワーク管理の重要な部分であり、最も重要なリンクの 1 つです。また、ユー...

画像セグメンテーションのためのディープラーニング: ネットワークアーキテクチャ設計の概要

この論文では、画像セマンティックセグメンテーションに CNN を使用する際のネットワーク構造の革新に...

テスラの自動運転タクシー参入は依然として困難

[[442909]] [51CTO.com クイック翻訳]テスラは2019年4月に「Autonomy...

YOLOv6: 高速かつ正確な物体検出フレームワークがオープンソース化

著者: Chu Yi、Kai Heng 他最近、Meituan のビジュアル インテリジェンス部門は...

AIファイナンスブームの背後にはアリババとスタートアップ企業独自の狙いがある

中国の人工知能分野の二大大手であるMegvii TechnologyとSenseTime Techn...