15のインタラクティブな実際の家のシーン、フェイフェイ・リーのチームが大規模な屋内シーンシミュレーション環境をオープンソース化

15のインタラクティブな実際の家のシーン、フェイフェイ・リーのチームが大規模な屋内シーンシミュレーション環境をオープンソース化

この研究では、スタンフォード ビジョン アンド ラーニング ラボ (SVL) の Silvio/Fei-Fei Li グループの研究者が、大規模な現実世界のシナリオでのインタラクティブなタスクのためのロボット ソリューションの開発を可能にする新しいシミュレーション環境、iGibson を導入しました。 iGibson には、実際の住宅をベースにした、完全にインタラクティブで視覚的にリアルなシーンが 15 個含まれており、CubiCasa5K および 3D-Front の 8,000 を超えるシーンをサポートしています。まさに「インタラクティブ性」を実現しています。

最近、AIやロボットのシミュレーション環境の開発が盛んになっています。ほんの数年前までは、シミュレートされたロボット環境は比較的珍しいものでしたが、現在では主要な学術会議 (NeurIPS、CoRL、さらには ICRA や IROS) のほぼすべての AI ロボット関連の論文で使用されています。では、シミュレーション環境は AI の開発にどのように役立つのでしょうか?これには以下の理由が考えられます。

まず、ロボット工学の分野では機械学習がますます重要な役割を果たしており、データ需要が急速に増加しています[2][3][4][5]。現実世界では、ロボットは「リアルタイム」でしかデータを生成できませんが、データの需要が膨大であるため、現実世界からデータを収集することは非現実的です。さらに、機械学習では、収集されたデータが多様である必要があり、ロボットのランダムな探索が必要になります。ロボットが現実世界でランダムに動くことが許されると、ロボット自身や周囲のものに大きな危険が生じます。

第二に、シミュレーション環境がますます堅牢で、現実的(視覚効果と物理エンジン)かつ便利になるにつれて、コンピューティング能力の向上により、ほとんどのマシンでこれらのシミュレーション環境を実行できるようになりました。そのため、ロボットを購入する資金が足りなくても、シミュレーション環境を通じてロボットの研究を行うことができます。シミュレーション環境によりロボット研究への参入障壁が下がり、より多くの人がこの分野を発展させることが可能になります。

最後に、さまざまなロボットタスク(ナビゲーション、把持、操作など)に関する論文の数が増え続けるにつれて、ロボット分野では再現可能なベンチマークが必要であるという問題がますます顕著になってきました。成熟した学問分野では、さまざまな方法や理論を効果的に比較できるように、実験結果を簡潔かつ確実に再現できる必要があります。現実世界よりも、シミュレートされた環境で再現可能なベンチマークを達成する方がはるかに簡単です。

しかし、物理シミュレーションとロボット工学タスクを組み合わせた現在のシミュレーション環境は、多くの場合、少数のタスクに限定されており、クリーンで小さなシーンのみが含まれています。家やオフィスなどの大きなシーンを含むシミュレーション環境は少数で、シーンを変更する機能がなく、ナビゲーション パフォーマンスのみに焦点を当てているもの (Habitat など) や、ゲーム エンジンまたは簡略化されたインタラクション モードを使用するもの (AI2Thor や VirtualHome など) があります。したがって、これらのシミュレーターはエンドツーエンドの感覚運動制御ループの開発をサポートしていないため、シーンとの豊富なインタラクションを必要とするタスクを完了することが困難になります。さらに、単純化されたインタラクション モデルでは、学習可能なインタラクション戦略を実行可能な実際のロボット命令に変換することも困難になります。

上記のアイデアに基づいて、スタンフォード視覚学習研究所 (SVL) の研究者は、インタラクティブAI エージェント iGibson をトレーニングおよびテストするために iGibson を開発しました。

それで、iGibson の何が特別なのでしょうか?まず、次の 2 つの概念を区別しましょう。

物理シミュレーター: 物理エンジンは、現在の環境におけるさまざまな動作の物理的な影響を計算できます。たとえば、物体に力を加えた結果や、水の流れのシミュレーションなどです。コンピュータグラフィックスの発展により、現在では成熟した物理エンジンが数多く存在します。その中でも、ロボット工学の分野で最も有名なのは、Bullet、PyBullet、MuJoCo、Nvidia PhysX および Flex、UnrealEngine、DART、Unity、ODE です。

シミュレーション環境: シミュレーション環境は、物理エンジン、レンダリング エンジン、モデル (シーン、オブジェクト、ロボットを含む) などの複数のコンポーネントを含む全体的なフレームワークです。シミュレーション環境を使用して特定のタスクをシミュレートし、その解決策を検討することができます。

したがって、研究者にとって、解決したいタスクや研究したいトピックによって、使用するシミュレーション環境が決まります。ことわざにあるように、仕事をうまくやり遂げたいなら、まずツールを研ぐ必要があります。 iGibson では、アパート全体など、現実世界の大規模なシナリオにおいて、視覚的な手がかりに基づいてロボットが環境との相互作用を必要とするタスクをどのように解決できるかを研究したいと考えています。

論文リンク: https://arxiv.org/pdf/2012.02924.pdf

プロジェクトアドレス: https://github.com/StanfordVL/iGibson/releases/tag/1.0.0

ウェブサイトアドレス: http://svl.stanford.edu/igibson/

Pip アドレス: https://pypi.org/project/gibson2/

ドキュメントアドレス: http://svl.stanford.edu/igibson/docs/

英語版ブログアドレス: https://ai.stanford.edu/blog/igibson/

既存のシミュレーションエンジンとの比較

既存のシミュレーション エンジンは、大規模なシーン物理的な相互作用をリアルに実行するという、私たちが研究したいタスクをサポートできません。固定ロボットアームに基づくシミュレーション環境 (メタワールド、RLBench、RoboSuite、DoorGym など) には実際のシーンが含まれていないため、屋内ナビゲーションを必要とするタスクはサポートされません。屋内ナビゲーション用に開発されたシミュレーション環境(以前に開発した Gibson v1 および Habitat を含む)は、視覚ナビゲーションと視覚言語ナビゲーションを解決できますが、そこに含まれるシーンは 3 次元で再構築された静的メッシュ モデルです。つまり、シーン全体が再構築されたときの位置に固定され、オブジェクトを移動できず、ロボットがシーンと対話できないことになります。

さらに、Sapien、AI2Thor、ThreeDWorld (TDW) などの一部のシミュレーション環境では、シーンレベルのインタラクション タスクのサポートが開始されています。 Sapien は、連結されたオブジェクト (ドア、キャビネットなど) との対話の問題に重点を置いています。 TDW は、高品質のサウンド、変形、液体シミュレーション (NVIDIA の Flex 物理エンジンに基づく) を提供します。しかし、Sapien も TDW も大規模なシーン モデルを提供していないため、大規模なシーンに関連するタスクの研究をサポートすることはできません。 AI2Thor にはインタラクティブなシーンが含まれていますが、インタラクションはスクリプト化されたシンボリック インタラクションであり、連続的なインタラクションと現実の変化を離散化します。つまり、オブジェクトが事前条件を満たすと、エージェントはオブジェクトが次の状態に入るようにコマンドを発行できます。たとえば、冷蔵庫の開放度は連続した値であるべきですが、現在は「開いている」と「閉じている」の 2 つの状態しかありません。 RoboThor は AI2Thor の後に登場しましたが、シンプルなセンサーと LoCoBot と呼ばれるロボットのシミュレーションのみを提供します。 LoCoBot の技術的な制限と環境の離散化により、ロボットはシミュレートされた環境で複雑なインタラクティブなタスクを学習して解決することができません。

私たちが研究したいタスクは、部屋の掃除や物体の検索など、複雑で長期にわたるモバイル操作タスクです。現実世界に適用できるソリューションを研究するには、実際のインタラクションを伴う大規模なシーンをシミュレートすることが特に重要です。

iGibsonの機能

iGibson の最も重要な機能はインタラクティブ性であり、真にインタラクティブな大規模なシーンを構築できます。この目的のために、次の主要な機能を実装しました。

実際の住宅をベースにした、完全にインタラクティブで視覚的にリアルな 15 のシーン。すべてのオブジェクトは、マテリアル情報や動的情報を含め、実際の方法で相互に作用できます。

CubiCasa5K[6]の8,000以上のシーンをサポートしています。

リアルなセンサー信号シミュレーションには、RGB (物理ベース レンダラー)、深度マップ、1 ビームまたは 16 ビーム LiDAR、セマンティック/インスタンス/マテリアル セグメンテーション マップ、オプティカル フロー、シーン フローなどが含まれます。

組み込みのモーション プランニング アルゴリズムを使用して、ロボット ベースの動き (環境内でのナビゲーション) とロボット アームの動き (物体の把持と操作) を計画します。

視覚的なテクスチャ、マテリアルとダイナミクスの情報、およびオブジェクト インスタンスをランダムに置き換える組み込みのドメイン ランダム化。このようにして、トレーニングとテスト用のランダムな環境を無限に生成できます。

人間とコンピュータの相互作用システムは、ロボットの手動デモンストレーションを提供できます。

iGibson機能のいくつかの応用

私たちの論文では、iGibson の LIDAR シミュレーションを使用してエージェントが現実世界のシナリオに移行できるようにするなど、これらの機能の有用性を実証しています。

iGibson シーンの完全なインタラクティブ性は、ロボットの視覚を事前トレーニングするのに役立ち、それによってロボットの学習を加速し、複雑なインタラクティブ タスクを完了することができます。

iGibson でより複雑なロボットタスクを解決する

上記の iGibson 関数は、大規模なシーンインタラクションタスクのソリューションをより適切に開発するのに役立ちます。非常に重要な課題の 1 つはインタラクティブ ナビゲーションであると考えています。このタスクでは、エージェントは移動するだけでなく、環境を変更する必要もあります (例: ドアを開ける、障害物を取り除く)。環境の変更を必要とするこのタイプのナビゲーションは、実際のシナリオで最も一般的です。

iGibsonシミュレーション環境でこの課題を解決するために、エージェントの特定の行動(相互作用が必要な場合はロボットを使用し、移動が必要な場合はベースを使用し、ロボットとベースの両方を使用する[8])を決定する階層的強化学習アルゴリズムを開発しました。

また、我々は動作計画アルゴリズムを組み合わせたソリューションを提案している。このアルゴリズムは、次の相互作用が発生する場所を指定し、動作計画者はこのアルゴリズムに基づいて運動学的および障害物回避軌道を計算する[9]。

しかし、これは iGibson の可能性の氷山の一角に過ぎないと考えています。現在、私たちの研究室 SVL (Stanford Vision and Learning Lab) の多くのプロジェクトでは、iGibson を使用してさまざまなインタラクティブなタスクを提案し、解決しています。

要約する

シミュレーション環境は、研究者がロボット工学や AI のさまざまな問題を解決する上で大きな可能性を秘めていると考えています。 iGibson は、大規模なシーンインタラクションタスクのための完全にオープンソースのシミュレーション環境です。 iGibson がロボット工学と AI の研究に貢献できることを心より願っております。

注: Gibson について: iGibson は、心理学と認知科学の巨匠である James J. Gibson [1904-1979] にちなんで名付けられました。ギブソンは生涯を通じて、知覚に関する新しい概念を含む多くの画期的なアイデアを提案しました。

知覚は生態学的プロセスであり、つまり、主体はそれが位置する生態学的環境から切り離されるべきではない。

知覚は能動的なプロセスであり、つまり、知覚には相互作用と主観的な主導性が必要です。

当時、主流の理論では、知覚は受動的な受容と処理のプロセスであると考えられていました。ギブソンの見解は正反対で、エージェントは環境との相互作用において情報を受動的に受け取るのではなく、能動的に求めるというものである。ギブソンは「アフォーダンス」という概念も提唱しました。これは、ドアが「開く」機能を提供し、椅子が「支える」機能を提供するなど、環境がエージェントに行動の可能性を与えるというものです。私たちの同僚は、ギブソン氏の研究を次のように要約しました。「頭の中に何があるのか​​ではなく、頭の中が何なのかを問いなさい。」(頭の中の世界だけに焦点を当てるのではなく、自分が生きている世界に焦点を当ててください)。

<<:  三国志を例に挙げて分散アルゴリズムについて語るのって、気楽なことでしょうか?

>>:  ネットで人気のロボット犬がまた所有者が変わる!ソフトバンクがボストン・ダイナミクスを格安で「売却」、現代自動車がロボット分野で大躍進

ブログ    
ブログ    

推薦する

ついに誰かが教師あり学習を明確にした

01 教師あり学習とは何か教師あり学習を行うには、コンピューターが学習できるラベルが付いたサンプル...

2018年大学入試トップ学生調査:60%以上がビジネス・経営学専攻を希望、人工知能などの専攻にも関心

毎年、大学入試の結果が発表されると、多くの受験生が専攻の選択に悩みます。では、優秀な学生たちはこのよ...

誰もが知っておくべきAIのパイオニア14人

[51CTO.com クイック翻訳] 世界経済フォーラムは毎年、世界中のテクノロジーの先駆者について...

機械学習を予知保全に適用するにはどうすればよいでしょうか?

機械学習と産業用 IoT (IIoT) デバイスから収集されたデータを組み合わせることで、プロセスの...

機械学習向けのテキスト注釈ツールとサービスのトップ 10: どれを選びますか?

[[347945]] [51CTO.com クイック翻訳] 現在、検索エンジンや感情分析から仮想ア...

今後5年間の15の主要なテクノロジートレンド

私たちの生活、仕事、交流の仕方に革命をもたらす技術の進歩によって、未来は常に形を変えています。今後 ...

ハードコア科学: たった一文で、話題の「ニューラル ネットワーク」とは何なのか説明できますか?

私の誠意を示すために、この短くて鋭い真実をここに述べます。ニューラル ネットワークは、 相互接続され...

人工知能の主要技術分野のレビュー

[[441598]] AI への準備プロセスの多くは組織の変更です。人工知能の利用には、ニューカラー...

...

機械学習におけるラベル漏洩とそれがモデルのパフォーマンスに与える影響について紹介します

優れた、またはほぼ優れたモデルのパフォーマンスに圧倒されていますか? あなたの幸せは裏切られています...

seq2seq モデルよりも 90 倍高速です。 Google、新しいテキスト編集モデルFELIXを発表

[[397649]]シーケンスツーシーケンス (seq2seq) モデルは、自然言語生成タスクに対す...

形式言語を認識する能力が不十分で、不完全なトランスフォーマーは自己注意の理論的欠陥を克服する必要がある

トランスフォーマー モデルは多くのタスクで非常に効果的ですが、一見単純な形式言語ではうまく機能しませ...

エア入力方式!浙江大学の最新研究:空中で指を動かすことでスマートウォッチにテキストを入力できる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

遺伝的アルゴリズムとPython実装におけるいくつかの異なる選択演算子

序文この論文では、遺伝的アルゴリズムにおけるいくつかの選択戦略についてまとめています。比例ルーレット...

C# でのジョセフ リング アルゴリズムの簡単な分析

C# アルゴリズムを勉強しているときに、C# ジョセフ リング アルゴリズムに出会いました。ジョセフ...