15のインタラクティブな実際の家のシーン、フェイフェイ・リーのチームが大規模な屋内シーンシミュレーション環境をオープンソース化

この研究では、スタンフォードビジョンアンドラーニングラボ (SVL) の Silvio/Fei-Fei Li グループの研究者が、大規模な現実世界のシナリオでのインタラクティブなタスクのためのロボットソリューションの開発を可能にする新しいシミュレーション環境、iGibson を導入しました。 iGibson には、実際の住宅をベースにした、完全にインタラクティブで視覚的にリアルなシーンが 15 個含まれており、CubiCasa5K および 3D-Front の 8,000 を超えるシーンをサポートしています。まさに「インタラクティブ性」を実現しています。

最近、AIやロボットのシミュレーション環境の開発が盛んになっています。ほんの数年前までは、シミュレートされたロボット環境は比較的珍しいものでしたが、現在では主要な学術会議 (NeurIPS、CoRL、さらには ICRA や IROS) のほぼすべての AI ロボット関連の論文で使用されています。では、シミュレーション環境は AI の開発にどのように役立つのでしょうか?これには以下の理由が考えられます。

まず、ロボット工学の分野では機械学習がますます重要な役割を果たしており、データ需要が急速に増加しています[2][3][4][5]。現実世界では、ロボットは「リアルタイム」でしかデータを生成できませんが、データの需要が膨大であるため、現実世界からデータを収集することは非現実的です。さらに、機械学習では、収集されたデータが多様である必要があり、ロボットのランダムな探索が必要になります。ロボットが現実世界でランダムに動くことが許されると、ロボット自身や周囲のものに大きな危険が生じます。

第二に、シミュレーション環境がますます堅牢で、現実的（視覚効果と物理エンジン）かつ便利になるにつれて、コンピューティング能力の向上により、ほとんどのマシンでこれらのシミュレーション環境を実行できるようになりました。そのため、ロボットを購入する資金が足りなくても、シミュレーション環境を通じてロボットの研究を行うことができます。シミュレーション環境によりロボット研究への参入障壁が下がり、より多くの人がこの分野を発展させることが可能になります。

最後に、さまざまなロボットタスク（ナビゲーション、把持、操作など）に関する論文の数が増え続けるにつれて、ロボット分野では再現可能なベンチマークが必要であるという問題がますます顕著になってきました。成熟した学問分野では、さまざまな方法や理論を効果的に比較できるように、実験結果を簡潔かつ確実に再現できる必要があります。現実世界よりも、シミュレートされた環境で再現可能なベンチマークを達成する方がはるかに簡単です。

しかし、物理シミュレーションとロボット工学タスクを組み合わせた現在のシミュレーション環境は、多くの場合、少数のタスクに限定されており、クリーンで小さなシーンのみが含まれています。家やオフィスなどの大きなシーンを含むシミュレーション環境は少数で、シーンを変更する機能がなく、ナビゲーションパフォーマンスのみに焦点を当てているもの (Habitat など) や、ゲームエンジンまたは簡略化されたインタラクションモードを使用するもの (AI2Thor や VirtualHome など) があります。したがって、これらのシミュレーターはエンドツーエンドの感覚運動制御ループの開発をサポートしていないため、シーンとの豊富なインタラクションを必要とするタスクを完了することが困難になります。さらに、単純化されたインタラクションモデルでは、学習可能なインタラクション戦略を実行可能な実際のロボット命令に変換することも困難になります。

上記のアイデアに基づいて、スタンフォード視覚学習研究所 (SVL) の研究者は、インタラクティブAI エージェント iGibson をトレーニングおよびテストするために iGibson を開発しました。

それで、iGibson の何が特別なのでしょうか?まず、次の 2 つの概念を区別しましょう。

物理シミュレーター: 物理エンジンは、現在の環境におけるさまざまな動作の物理的な影響を計算できます。たとえば、物体に力を加えた結果や、水の流れのシミュレーションなどです。コンピュータグラフィックスの発展により、現在では成熟した物理エンジンが数多く存在します。その中でも、ロボット工学の分野で最も有名なのは、Bullet、PyBullet、MuJoCo、Nvidia PhysX および Flex、UnrealEngine、DART、Unity、ODE です。

シミュレーション環境: シミュレーション環境は、物理エンジン、レンダリングエンジン、モデル (シーン、オブジェクト、ロボットを含む) などの複数のコンポーネントを含む全体的なフレームワークです。シミュレーション環境を使用して特定のタスクをシミュレートし、その解決策を検討することができます。

したがって、研究者にとって、解決したいタスクや研究したいトピックによって、使用するシミュレーション環境が決まります。ことわざにあるように、仕事をうまくやり遂げたいなら、まずツールを研ぐ必要があります。 iGibson では、アパート全体など、現実世界の大規模なシナリオにおいて、視覚的な手がかりに基づいてロボットが環境との相互作用を必要とするタスクをどのように解決できるかを研究したいと考えています。

論文リンク: https://arxiv.org/pdf/2012.02924.pdf

プロジェクトアドレス: https://github.com/StanfordVL/iGibson/releases/tag/1.0.0

ウェブサイトアドレス: http://svl.stanford.edu/igibson/

Pip アドレス: https://pypi.org/project/gibson2/

ドキュメントアドレス: http://svl.stanford.edu/igibson/docs/

英語版ブログアドレス: https://ai.stanford.edu/blog/igibson/

既存のシミュレーションエンジンとの比較

既存のシミュレーションエンジンは、大規模なシーンで物理的な相互作用をリアルに実行するという、私たちが研究したいタスクをサポートできません。固定ロボットアームに基づくシミュレーション環境 (メタワールド、RLBench、RoboSuite、DoorGym など) には実際のシーンが含まれていないため、屋内ナビゲーションを必要とするタスクはサポートされません。屋内ナビゲーション用に開発されたシミュレーション環境（以前に開発した Gibson v1 および Habitat を含む）は、視覚ナビゲーションと視覚言語ナビゲーションを解決できますが、そこに含まれるシーンは 3 次元で再構築された静的メッシュモデルです。つまり、シーン全体が再構築されたときの位置に固定され、オブジェクトを移動できず、ロボットがシーンと対話できないことになります。

さらに、Sapien、AI2Thor、ThreeDWorld (TDW) などの一部のシミュレーション環境では、シーンレベルのインタラクションタスクのサポートが開始されています。 Sapien は、連結されたオブジェクト (ドア、キャビネットなど) との対話の問題に重点を置いています。 TDW は、高品質のサウンド、変形、液体シミュレーション (NVIDIA の Flex 物理エンジンに基づく) を提供します。しかし、Sapien も TDW も大規模なシーンモデルを提供していないため、大規模なシーンに関連するタスクの研究をサポートすることはできません。 AI2Thor にはインタラクティブなシーンが含まれていますが、インタラクションはスクリプト化されたシンボリックインタラクションであり、連続的なインタラクションと現実の変化を離散化します。つまり、オブジェクトが事前条件を満たすと、エージェントはオブジェクトが次の状態に入るようにコマンドを発行できます。たとえば、冷蔵庫の開放度は連続した値であるべきですが、現在は「開いている」と「閉じている」の 2 つの状態しかありません。 RoboThor は AI2Thor の後に登場しましたが、シンプルなセンサーと LoCoBot と呼ばれるロボットのシミュレーションのみを提供します。 LoCoBot の技術的な制限と環境の離散化により、ロボットはシミュレートされた環境で複雑なインタラクティブなタスクを学習して解決することができません。

私たちが研究したいタスクは、部屋の掃除や物体の検索など、複雑で長期にわたるモバイル操作タスクです。現実世界に適用できるソリューションを研究するには、実際のインタラクションを伴う大規模なシーンをシミュレートすることが特に重要です。

iGibsonの機能

iGibson の最も重要な機能はインタラクティブ性であり、真にインタラクティブな大規模なシーンを構築できます。この目的のために、次の主要な機能を実装しました。

実際の住宅をベースにした、完全にインタラクティブで視覚的にリアルな 15 のシーン。すべてのオブジェクトは、マテリアル情報や動的情報を含め、実際の方法で相互に作用できます。

CubiCasa5K[6]の8,000以上のシーンをサポートしています。

リアルなセンサー信号シミュレーションには、RGB (物理ベースレンダラー)、深度マップ、1 ビームまたは 16 ビーム LiDAR、セマンティック/インスタンス/マテリアルセグメンテーションマップ、オプティカルフロー、シーンフローなどが含まれます。

組み込みのモーションプランニングアルゴリズムを使用して、ロボットベースの動き (環境内でのナビゲーション) とロボットアームの動き (物体の把持と操作) を計画します。

視覚的なテクスチャ、マテリアルとダイナミクスの情報、およびオブジェクトインスタンスをランダムに置き換える組み込みのドメインランダム化。このようにして、トレーニングとテスト用のランダムな環境を無限に生成できます。

人間とコンピュータの相互作用システムは、ロボットの手動デモンストレーションを提供できます。

iGibson機能のいくつかの応用

私たちの論文では、iGibson の LIDAR シミュレーションを使用してエージェントが現実世界のシナリオに移行できるようにするなど、これらの機能の有用性を実証しています。

iGibson シーンの完全なインタラクティブ性は、ロボットの視覚を事前トレーニングするのに役立ち、それによってロボットの学習を加速し、複雑なインタラクティブタスクを完了することができます。

iGibson でより複雑なロボットタスクを解決する

上記の iGibson 関数は、大規模なシーンインタラクションタスクのソリューションをより適切に開発するのに役立ちます。非常に重要な課題の 1 つはインタラクティブナビゲーションであると考えています。このタスクでは、エージェントは移動するだけでなく、環境を変更する必要もあります (例: ドアを開ける、障害物を取り除く)。環境の変更を必要とするこのタイプのナビゲーションは、実際のシナリオで最も一般的です。

iGibsonシミュレーション環境でこの課題を解決するために、エージェントの特定の行動（相互作用が必要な場合はロボットを使用し、移動が必要な場合はベースを使用し、ロボットとベースの両方を使用する[8]）を決定する階層的強化学習アルゴリズムを開発しました。

また、我々は動作計画アルゴリズムを組み合わせたソリューションを提案している。このアルゴリズムは、次の相互作用が発生する場所を指定し、動作計画者はこのアルゴリズムに基づいて運動学的および障害物回避軌道を計算する[9]。

しかし、これは iGibson の可能性の氷山の一角に過ぎないと考えています。現在、私たちの研究室 SVL (Stanford Vision and Learning Lab) の多くのプロジェクトでは、iGibson を使用してさまざまなインタラクティブなタスクを提案し、解決しています。

要約する

シミュレーション環境は、研究者がロボット工学や AI のさまざまな問題を解決する上で大きな可能性を秘めていると考えています。 iGibson は、大規模なシーンインタラクションタスクのための完全にオープンソースのシミュレーション環境です。 iGibson がロボット工学と AI の研究に貢献できることを心より願っております。

注: Gibson について: iGibson は、心理学と認知科学の巨匠である James J. Gibson [1904-1979] にちなんで名付けられました。ギブソンは生涯を通じて、知覚に関する新しい概念を含む多くの画期的なアイデアを提案しました。

知覚は生態学的プロセスであり、つまり、主体はそれが位置する生態学的環境から切り離されるべきではない。

知覚は能動的なプロセスであり、つまり、知覚には相互作用と主観的な主導性が必要です。

当時、主流の理論では、知覚は受動的な受容と処理のプロセスであると考えられていました。ギブソンの見解は正反対で、エージェントは環境との相互作用において情報を受動的に受け取るのではなく、能動的に求めるというものである。ギブソンは「アフォーダンス」という概念も提唱しました。これは、ドアが「開く」機能を提供し、椅子が「支える」機能を提供するなど、環境がエージェントに行動の可能性を与えるというものです。私たちの同僚は、ギブソン氏の研究を次のように要約しました。「頭の中に何があるのかではなく、頭の中が何なのかを問いなさい。」（頭の中の世界だけに焦点を当てるのではなく、自分が生きている世界に焦点を当ててください）。

<<: 三国志を例に挙げて分散アルゴリズムについて語るのって、気楽なことでしょうか?

15のインタラクティブな実際の家のシーン、フェイフェイ・リーのチームが大規模な屋内シーンシミュレーション環境をオープンソース化

自然言語処理（NLP）の歴史と方向性

GitHub スター 6000 以上! Pythonで機械学習のバイブルPRMLを実践

「小さいけれど優秀」な大規模言語モデル Zephyr 7B の詳細な説明

人工知能によりデータの痕跡を監視できるようになりました。このとき、ユーザーのプライバシーとセキュリティをどのように維持できるのでしょうか?

視覚的な手がかりに「マーカー」を追加することで、Microsoft と他の企業は GPT-4V をより正確かつ詳細にしました。

海外メディア：人間はますます余暇を持ち、AIは資本主義を排除する

機械学習を実践するための10のヒント

オープンソースのビッグモデルが OpenAI に大打撃を与える!ザッカーバーグはテクノロジー界に衝撃を与えたLLaMA2をリリースし、マイクロソフトやクアルコムと手を組んで市場構造に影響を与えた。

推薦する

Fudan DISC、クロスビジュアル言語モダリティ事前トレーニングモデルMVPTRを発表

テスラのAIディレクター、カルパシー氏は、すべてのMLモデルをTransformerで定義することでAI統合のトレンドについてツイートした。

工業情報化部：チップやオペレーティングシステムなどのトップレベルの基盤にブレークスルーがなければ、AI業界は空中楼閣になるだろう

AIトレーニングの最大の障害は計算能力ではなく「メモリの壁」である

国連は、国際社会がガバナンスを強化するための支援を提供するためにAI諮問機関を設立した。

Google AIオープンソース：携帯電話で3D物体検出が可能、しかもリアルタイム

従来のモデルに別れを告げて、機械学習がディープラーニングへとどのように移行していくのかを見てみましょう。

グラフィックで説明する 10 個のグラフアルゴリズム

自動運転車が急カーブを曲がるときに車線を検知する3つの技術

アイティ族テクニカルクリニック第6回

Baidu の最新の IDL 成果: 自然言語から始めて、AI エージェントに人間のように学習することを教える