MITとHKUは、Transformerを超える精度を持つ物理モデルに基づく視覚推論フレームワークを提案

[[437809]]

動的視覚推論、特にオブジェクト間の物理的な関係についての推論は、コンピュータービジョンにおける重要かつ困難な問題です。観察されたビデオが与えられた場合、モデルはビデオに基づいてビデオ内のオブジェクトの相互作用プロセスを推測する必要があるだけでなく、ビデオの長期的な将来と反事実的状況を予測する必要もあります。これら 2 つの予測は、既存のニューラルネットワークモデルの弱点です。

既存の手法は、エンドツーエンドのニューラルネットワーク（Vision Transformerなど）を使用してオブジェクト間の関係をモデル化する手法[3]と、ニューロシンボルに基づく推論モデル[2, 4]の2つに大別できます。前者はTransformerなどの強力な表現の恩恵を受け、パフォーマンスは良好ですが、大量のデータに依存しており、推論プロセスは不透明で説明が困難です。後者は、ニューラルシンボルに基づくステップバイステップの推論に基づいています。モデルの解釈可能性は良好ですが、精度は限られています。また、既存のソリューションでは、長期予測や反事実予測の問題を解決することが困難です。

本論文で提案された微分可能な物理モデルに基づくニューラル記号推論フレームワークは、この問題をうまく解決します。ビデオと質問のペアから物理モデルを学習し、明示的な物理モデルを使用してオブジェクトのダイナミクスをモデル化し、正確なダイナミクス予測に基づいて長期および反事実予測の問題に答えます。私たちのフレームワークは透明性と解釈性に優れており、精度の点ではTransformerベースのモデルよりも優れています。さらに、データ効率も良好で、20% 以下のデータのみを使用しても良好な結果が得られます。この記事の著者は香港大学（HKU）、マサチューセッツ工科大学（MIT）、MIT-IBM Watson AI Labの研究者であり、論文はNeurIPS 2021に採択されています。

図1. [NeurIPS 2021] VRDP著者紹介

プロジェクトのホームページ: http://vrdp.csail.mit.edu/
論文リンク: http://vrdp.csail.mit.edu/assets/NeurIPS21_VRDP/vrdp.pdf
コードリンク: https://github.com/dingmyu/NCP

背景とデータ

この論文で最もよく使用されるデータセットはCLEVRERデータセット[2]である。下の図に示すように、単純化されたオブジェクト (球、円柱、立方体など) を使用して、ダイナミクスに関連する推論問題を学習します。1. 何が起こったか? (説明的な質問); 2. なぜそれが起こったのですか? （説明質問）3. 何が起こるでしょうか？ (予測的な質問)。4. …だったらどうなるでしょうか。(反事実的な質問)。人間は物理的な直感と常識を使ってこれらの問題を比較的簡単に推測できますが、機械にとっては、特に反事実的問題の場合は、これはやや困難です。たとえば、黄色い金属のシリンダーがなかったらどうなるでしょうか?これは、物理的なモデリングと空間想像力の能力をテストするものです。 Transformer ベースのモデルは記述的および説明的な問題をうまく解決できますが、反事実的な場合には常に失敗します。

図2. CLEVRER推論データセットの例

方法の紹介

この記事の著者らは、既存のソリューションの欠点は、物理モデルを明示的に使用せず、ニューラルネットワークや GNN の暗黙的な推論に過度に依存しているため、長期予測や反事実的推論においてビデオ内のロジックをうまく捉えることができない点にあることを発見しました。これに基づいて、著者らは微分可能な物理エンジンを導入し、ビデオからオブジェクトの軌跡とプロパティをキャプチャすることにより、ビデオ内のオブジェクトとシーンの物理パラメータ（速度、加速度、質量、弾性係数、摩擦など）を復元しました。すべての相対的な物理パラメータが推測され、つまり明示的な物理モデルが得られると、著者らはその物理モデルを使用して予測ベースおよび反事実的な物理シミュレーションを実行し、シミュレートされた軌跡と特性に基づいて関連する質問に答えます。具体的なプロセスは以下の図の通りです。

図 3. 物理モデルに基づく推論の例。（1）知覚モジュールを使用して、ビデオから各オブジェクトとそれに対応する軌跡および属性を取得します。（2）上記のビデオ観察を使用して、微分可能な物理シミュレーションを通じて関連する物理パラメータを学習します。（3）物理シミュレーションを通じて予測を行い、関連する質問に答えます。

しかし、上記のフレームワークにはまだ難しさがあります。現実世界では、オブジェクトに属性がラベル付けされていないことがよくあります。この場合、知覚モジュールを通じてオブジェクトの関連属性（色や形など）を取得することは困難です。この事前情報がなければ、微分可能な物理シミュレーションを実行することは不可能であり、正確な物理モデルを学習することは不可能です。そこで著者らは、視覚知覚モジュール、概念学習器、物理モデルを組み合わせ、3つのシームレスなモジュールを使用して上記の問題を解決するVRDPフレームワークを提案した。その中で、視覚認識モジュールは画像の各フレームをセグメント化して各オブジェクトと対応する軌跡を取得するために使用されます。概念学習器はオブジェクトの軌跡情報と質問ペアからオブジェクトの属性を学習する役割を担います。オブジェクトの軌跡と属性が取得された後、微分可能な物理シミュレーションを通じてより正確な物理モデルが学習され、物理モデルに基づいて長期的かつ直感に反する推論が完了します。全体的な枠組みは次のとおりです。

図4. VRDPフレームワーク。これは、視覚知覚モジュール、概念学習器、微分可能な物理モデルの3つの部分で構成されています。

具体的には、フレームワークの物理エンジンは、運動量と運動エネルギーの保存に基づく衝突モデルです。単一のビデオ軌跡からオブジェクトのリアルタイムの速度と加速度を推定し、これを使用してシーンの摩擦などのパラメータを推定します。さらに、衝突イベントを通じて衝突する物体の相対的な質量や弾性係数を推定し、これらのパラメータを学習することで、さまざまなシミュレーションや推論を自由に実行できます。本論文の概念学習器は、質問内の各概念語に埋め込みを割り当て、ビデオの軌跡から物体知覚の特徴を学習する。視覚的特徴と意味的エンコーディングを同じ空間に投影して取得することで、各物体の対応する属性を取得する。NS-CL [1]を参照。下の図の通りです。

図5. 概念学習者

この論文のニューラルシンボリックエグゼキュータは、NS-DR [2] と DCL [4] のスキームを使用して、予測されたオブジェクトの軌跡と衝突イベントに基づいて明示的なシンボリック推論を実行します。たとえば、filter(Green) はすべての緑色のオブジェクトを取得することを意味し、filter(Collision, filter(Green), filter(Cube)) は緑色のオブジェクトと立方体の間の衝突イベントを見つけることを意味します。明示的な物理モデルとニューラルシンボリックエグゼキューターを通じて、私たちのフレームワークの各ステップは説明可能で完全に透明であり、推論プロセス全体が人間の段階的な推論に似ています。

デモ

図6. 物理シミュレーションの例。左側は元のビデオ、右側はシミュレーション結果です。

図7. 予測問題の推論例

図8. 反事実的推論の例

実験セクション

この論文で提案された VRDP フレームワークは優れたパフォーマンスを発揮します。CLEVRER データセット全体でテストしたところ、より困難な予測問題と反事実問題で最高のパフォーマンスを達成し、次の表に示すように、記述問題と説明問題でも競争力のある結果が得られました。

図9. 実験結果（全データ）

さらに、データ利用効率が非常に高く、下の図に示すように、わずか 20% のデータを使用しても、既存の他のソリューションをはるかに上回る非常に優れた結果を達成できます。

図10. データ効率評価（部分データ）

著者らはまた、微分可能な物理モデルを使用することで、VRDP を「重い」という概念など、データセットに存在しない新しい概念に簡単に拡張できることを実証しました。VRDP は物理シミュレーションを正常に実行し、より複雑な反事実シナリオである青いシリンダーが重くなった場合に何が起こるかを正確に予測します。

図11. 新しい反事実概念「重い」への拡張

<<: Waymo - 自動運転技術の解説

>>: AIがKing of GloryやStarCraftをプレイしています...その背後にあるテクノロジーを理解していないのですか?ゲームAIのレビューはこちら