MITとHKUは、Transformerを超える精度を持つ物理モデルに基づく視覚推論フレームワークを提案

MITとHKUは、Transformerを超える精度を持つ物理モデルに基づく視覚推論フレームワークを提案

[[437809]]

動的視覚推論、特にオブジェクト間の物理的な関係についての推論は、コンピューター ビジョンにおける重要かつ困難な問題です。観察されたビデオが与えられた場合、モデルはビデオに基づいてビデオ内のオブジェクトの相互作用プロセスを推測する必要があるだけでなく、ビデオの長期的な将来と反事実的状況を予測する必要もあります。これら 2 つの予測は、既存のニューラル ネットワーク モデルの弱点です。

既存の手法は、エンドツーエンドのニューラルネットワーク(Vision Transformerなど)を使用してオブジェクト間の関係をモデル化する手法[3]と、ニューロシンボルに基づく推論モデル[2, 4]の2つに大別できます。前者はTransformerなどの強力な表現の恩恵を受け、パフォーマンスは良好ですが、大量のデータに依存しており、推論プロセスは不透明で説明が困難です。後者は、ニューラルシンボルに基づくステップバイステップの推論に基づいています。モデルの解釈可能性は良好ですが、精度は限られています。また、既存のソリューションでは、長期予測や反事実予測の問題を解決することが困難です。

本論文で提案された微分可能な物理モデルに基づくニューラル記号推論フレームワークは、この問題をうまく解決します。ビデオと質問のペアから物理モデルを学習し、明示的な物理モデルを使用してオブジェクトのダイナミクスをモデル化し、正確なダイナミクス予測に基づいて長期および反事実予測の問題に答えます。私たちのフレームワークは透明性と解釈性に優れており、精度の点ではTransformerベースのモデルよりも優れています。さらに、データ効率も良好で、20% 以下のデータのみを使用しても良好な結果が得られます。この記事の著者は香港大学(HKU)、マサチューセッツ工科大学(MIT)、MIT-IBM Watson AI Labの研究者であり、論文はNeurIPS 2021に採択されています

図1. [NeurIPS 2021] VRDP著者紹介

  • プロジェクトのホームページ: http://vrdp.csail.mit.edu/
  • 論文リンク: http://vrdp.csail.mit.edu/assets/NeurIPS21_VRDP/vrdp.pdf
  • コードリンク: https://github.com/dingmyu/NCP

背景とデータ

この論文で最もよく使用されるデータセットはCLEVRERデータセット[2]である。下の図に示すように、単純化されたオブジェクト (球、円柱、立方体など) を使用して、ダイナミクスに関連する推論問題を学習します。1. 何が起こったか? (説明的な質問); 2. なぜそれが起こったのですか? (説明質問)3. 何が起こるでしょうか? (予測的な質問)。4. …だったらどうなるでしょうか。(反事実的な質問)。人間は物理的な直感と常識を使ってこれらの問題を比較的簡単に推測できますが、機械にとっては、特に反事実的問題の場合は、これはやや困難です。たとえば、黄色い金属のシリンダーがなかったらどうなるでしょうか?これは、物理的なモデリングと空間想像力の能力をテストするものです。 Transformer ベースのモデルは記述的および説明的な問題をうまく解決できますが、反事実的な場合には常に失敗します。

図2. CLEVRER推論データセットの例

方法の紹介

この記事の著者らは、既存のソリューションの欠点は、物理モデルを明示的に使用せず、ニューラル ネットワークや GNN の暗黙的な推論に過度に依存しているため、長期予測や反事実的推論においてビデオ内のロジックをうまく捉えることができない点にあることを発見しました。これに基づいて、著者らは微分可能な物理エンジンを導入し、ビデオからオブジェクトの軌跡とプロパティをキャプチャすることにより、ビデオ内のオブジェクトとシーンの物理パラメータ(速度、加速度、質量、弾性係数、摩擦など)を復元しました。すべての相対的な物理パラメータが推測され、つまり明示的な物理モデルが得られると、著者らはその物理モデルを使用して予測ベースおよび反事実的な物理シミュレーションを実行し、シミュレートされた軌跡と特性に基づいて関連する質問に答えます。具体的なプロセスは以下の図の通りです。

図 3. 物理モデルに基づく推論の例。 (1)知覚モジュールを使用して、ビデオから各オブジェクトとそれに対応する軌跡および属性を取得します。(2)上記のビデオ観察を使用して、微分可能な物理シミュレーションを通じて関連する物理パラメータを学習します。(3)物理シミュレーションを通じて予測を行い、関連する質問に答えます。

しかし、上記のフレームワークにはまだ難しさがあります。現実世界では、オブジェクトに属性がラベル付けされていないことがよくあります。この場合、知覚モジュールを通じてオブジェクトの関連属性(色や形など)を取得することは困難です。この事前情報がなければ、微分可能な物理シミュレーションを実行することは不可能であり、正確な物理モデルを学習することは不可能です。そこで著者らは、視覚知覚モジュール、概念学習器、物理モデルを組み合わせ、3つのシームレスなモジュールを使用して上記の問題を解決するVRDPフレームワークを提案した。その中で、視覚認識モジュールは画像の各フレームをセグメント化して各オブジェクトと対応する軌跡を取得するために使用されます。概念学習器はオブジェクトの軌跡情報と質問ペアからオブジェクトの属性を学習する役割を担います。オブジェクトの軌跡と属性が取得された後、微分可能な物理シミュレーションを通じてより正確な物理モデルが学習され、物理モデルに基づいて長期的かつ直感に反する推論が完了します。全体的な枠組みは次のとおりです。

図4. VRDPフレームワーク。これは、視覚知覚モジュール、概念学習器、微分可能な物理モデルの3つの部分で構成されています。

具体的には、フレームワークの物理エンジンは、運動量と運動エネルギーの保存に基づく衝突モデルです。単一のビデオ軌跡からオブジェクトのリアルタイムの速度と加速度を推定し、これを使用してシーンの摩擦などのパラメータを推定します。さらに、衝突イベントを通じて衝突する物体の相対的な質量や弾性係数を推定し、これらのパラメータを学習することで、さまざまなシミュレーションや推論を自由に実行できます。本論文の概念学習器は、質問内の各概念語に埋め込みを割り当て、ビデオの軌跡から物体知覚の特徴を学習する。視覚的特徴と意味的エンコーディングを同じ空間に投影して取得することで、各物体の対応する属性を取得する。NS-CL [1]を参照。下の図の通りです。

図5. 概念学習者

この論文のニューラルシンボリックエグゼキュータは、NS-DR [2] と DCL [4] のスキームを使用して、予測されたオブジェクトの軌跡と衝突イベントに基づいて明示的なシンボリック推論を実行します。たとえば、filter(Green) はすべての緑色のオブジェクトを取得することを意味し、filter(Collision, filter(Green), filter(Cube)) は緑色のオブジェクトと立方体の間の衝突イベントを見つけることを意味します。明示的な物理モデルとニューラルシンボリックエグゼキューターを通じて、私たちのフレームワークの各ステップは説明可能で完全に透明であり、推論プロセス全体が人間の段階的な推論に似ています。

デモ

図6. 物理シミュレーションの例。左側は元のビデオ、右側はシミュレーション結果です。

図7. 予測問題の推論例

図8. 反事実的推論の例

実験セクション

この論文で提案された VRDP フレームワークは優れたパフォーマンスを発揮します。CLEVRER データセット全体でテストしたところ、より困難な予測問題と反事実問題で最高のパフォーマンスを達成し、次の表に示すように、記述問題と説明問題でも競争力のある結果が得られました。

図9. 実験結果(全データ)

さらに、データ利用効率が非常に高く、下の図に示すように、わずか 20% のデータを使用しても、既存の他のソリューションをはるかに上回る非​​常に優れた結果を達成できます。

図10. データ効率評価(部分データ)

著者らはまた、微分可能な物理モデルを使用することで、VRDP を「重い」という概念など、データセットに存在しない新しい概念に簡単に拡張できることを実証しました。VRDP は物理シミュレーションを正常に実行し、より複雑な反事実シナリオである青いシリンダーが重くなった場合に何が起こるかを正確に予測します。

図11. 新しい反事実概念「重い」への拡張

<<:  Waymo - 自動運転技術の解説

>>:  AIがKing of GloryやStarCraftをプレイしています...その背後にあるテクノロジーを理解していないのですか?ゲームAIのレビューはこちら

推薦する

...

人工知能とプライバシーの議論: AIの透明性の長所と短所を理解する

AI がますます多くの業界で採用されるようになるにつれ、AI のユーザーは、実用性を効果的に維持しな...

3つのシナリオは、人工知能が新しい小売業に力を与える方法を示しています

1950年代以降、人工知能は長年にわたり浮き沈みを経験し、ビジネスシーンで継続的に試されてきました。...

ビデオ監視産業の発展動向とAI技術の応用

1. ビデオ監視産業の発展動向わが国では、安全都市やインテリジェント交通などのさまざまな建設プロジェ...

国内トップクラスのAIカンファレンスCPALに採択された論文の成果を公開!合計30件の口頭発表と60件のスポットライト記事

今年5月に発表され、国内の有力者である馬怡氏と沈向陽氏が主導する、まったく新しい初のAI学術会議CP...

新しい特許は、Appleのリサイクルロボットが爆発するバッテリーから身を守ることができることを示している

Appleの分解ロボットとiPhoneのリサイクルプロセス全体は非常に複雑な取り組みであり、バッテリ...

人工知能は人々を失業させるだけでしょうか?マッキンゼーの調査と分析では、異なる答えが出ました。

AIへの追加投資は2030年までに雇用の5%に貢献し、創出される追加の富は労働需要を促進し、雇用を...

AIとスマート信号機が通勤を変えるかもしれない

世界的なパンデミックの影響で、世界各地でロックダウンが実施されたことにより、街の交通量は減少し、地域...

ニューラルネットワークの問題を解決するための新しいアイデア: OpenAI は線形ネットワークを使用して非線形問題を計算します

[[205570]]深層線形ネットワーク (浮動小数点演算を使用して実装) は実際には線形ではなく、...

人工知能技術が農業に革命を起こす

国際的に著名な学者である周海中教授は、1990年代に「科学技術の進歩により、人工知能の時代が到来しよ...

視覚化と人工知能の強力な組み合わせ!

視覚化と視覚分析では、高帯域幅の視覚認識チャネルを使用してデータをグラフィック表現に変換し、インタラ...

AI聴覚技術は国際紛争に関与したことがあるか?

AI視覚技術がさまざまな業界で応用されるのはもはや目新しいことではなく、現在ではAI聴覚技術も戦場...

...

Kafka のバイナリ検索アルゴリズムの改善

[[356205]]私は最近、Kafak のソース コードをいくつか研究し、Kafak の改良された...