厦門大学、インテル、DJI による共同プロジェクトで、オンライン動画からゼロショット画像マッチングの大規模モデルを学習

画像マッチングは、2 つの画像間のピクセルの対応を推定することを目的とした、コンピュータービジョンにおける基本的なタスクです。画像マッチングは、3D 再構成、視覚的位置決め、ニューラルレンダリングなどの多くの視覚アプリケーションの基礎であり、前提条件となるステップです。その精度と効率は、その後の処理にとって非常に重要です。

従来のアルゴリズム (SIFT) では、長いベースラインや異常気象などの複雑なシナリオに直面した場合、マッチングの精度と密度が制限されることがよくあります。これらの問題を解決するために、近年、ディープラーニングをベースにしたマッチングモデルが普及しつつあります。しかし、真の値ラベルを持つ大規模で多様なトレーニングデータが不足しているため、現在のマッチングモデルでは通常、ScanNet と MegaDepth でそれぞれ屋内と屋外の 2 つのモデルをトレーニングします。このシナリオ固有のトレーニングでは、モデルの一般化がゼロショットシナリオに制限され、未知のシナリオに拡張することはできません。さらに、既存のデータ構築方法では、再構築にRGBDスキャンやSfM + MVSに依存することが多く、効率と適用性が限られており、データを効果的に拡張してモデルのトレーニングに使用することができません。

ディープラーニング手法の一般化問題を解決するために、厦門大学、Intel、DJI の研究者らは、インターネットビデオから一般化可能な画像マッチングを学習する GIM (Learning Generalizable Image Matcher from Internet Videos) を提案しました。 GIM は、マッチングモデルがインターネットビデオから強力な一般化機能を学習できるようにする最初のトレーニングフレームワークです。

論文ホームページ: https://xuelunshen.com/gim

論文アドレス: https://arxiv.org/abs/2402.11095

論文ビデオ: https://www.youtube.com/watch?v=FU_MJLD8LeY

コードアドレス: https://github.com/xuelunshen/gim

オンラインモデル: https://huggingface.co/spaces/xuelunshen/gim-online

GIM は、簡単にアクセスでき、多様で、ほぼ無限のインターネットビデオ (図 1 を参照) から効果的な監視信号を抽出し、マッチングモデルをトレーニングします。

図1. インターネット動画の多様なシーン

GIM フレームワークは、すべてのマッチングモデルのトレーニングに適用できます。図 2 に示すように、3 つのマッチングモデル DKM、LoFTR、SuperGlue は、密なマッチング、半密なマッチング、スパースなマッチングという 3 つの主流のマッチングパラダイムに対応しています。 GIM フレームワークでは、トレーニングに使用されるビデオが長いほど、マッチングモデルのパフォーマンスが高くなります。現在の曲線から判断すると、50 時間のビデオを使用した後でもパフォーマンスはまだ飽和していないため、より多くのビデオを使用するとパフォーマンスはさらに向上します。

図2. トレーニングに使用したビデオの長さとモデルの一般化性能の関係

マッチングモデルの一般化パフォーマンスを完全に測定するために、著者らは最初のゼロショット評価ベンチマーク (ZEB) を提案しました。図 3 に示すように、ZEB はさまざまなシーン、天気、カメラモデルをカバーする 12 の公開データセットで構成されており、約 46,000 組のテスト画像が含まれています。 ZEB には、3000 個の画像ペアのテストセットのみを含む MegaDepth や ScanNet などの既存の方法で一般的に使用されるデータよりもはるかに多くのデータが含まれています。

図3. ZEBの構成

図2のモデル一般化性能はZEBの評価結果から導き出されたものであり、具体的な評価結果は図4に示されています。平均ランク指標は、12 個のテストシーケンスにおける一致するモデルの平均ランクを表します。ランクが 1 に近いほど、優れています。平均 AUC@5° は、ポーズ推定におけるマッチングモデルの精度を表し、値が高いほど優れています。

図4. マッチングモデルの一般化性能評価の結果

図 4 からわかるように、GIM はマッチングモデルの一般化パフォーマンスを大幅に向上させることができます。 GIM によるトレーニングを受ける前は、SuperGlue と LoFTR は、GL3、BLE、および GTA シーケンスにおいて従来のアルゴリズム RootSIFT よりもさらに劣っています。 GIM によるトレーニング後、両方のモデルの一般化パフォーマンスが大幅に向上しました。

先ほど述べたように、50 時間のビデオデータは、モデルのパフォーマンス限界にはほど遠いものです。 100時間のビデオデータを使用した著者の最新のトレーニング結果によると、パフォーマンスは51.2に達し、既存のモデルをはるかに上回っています。

図 5 に示すように、マッチングモデルの一般化パフォーマンスの向上は、下流のタスクにもメリットをもたらします。図 5 の再ローカリゼーションタスクでは、GIM は 1 つのモデルを他の特定のシナリオのモデルと比較するだけですが、それでもより良い結果が得られていることに注目に値します。

図5. 下流タスクにおけるマッチングモデルのパフォーマンス：ホモグラフィ行列推定、屋内および屋外の再位置特定タスク

デュアルビュー画像マッチングの結果を下図に示します。

図6. デュアルビューマッチングによるマッチングモデルの可視化結果

さらに、図 7 に示すように、GIM モデルの強力な一般化パフォーマンスにより、トレーニング中に見たことのないポイントクラウド鳥瞰図マッチングタスクも処理できます。

図7. 点群鳥瞰図マッチングにおけるマッチングモデルの可視化結果

COLMAP は、マルチビュー再構成の一般的な方法として、視覚的位置特定やニューラルレンダリングなどの下流タスクで広く使用されています。 COLMAP のマッチング方法を GIM に置き換えると、より優れたマルチビュー再構成を実現でき、COLMAP の堅牢性が大幅に向上します。

図8. 異なるマッチングモデルがマルチビュー再構成に与える影響。最初の行は部分的に再構成された画像を示しています。 2行目には再構築結果が表示されます。興味のある読者は、論文のホームページと紹介ビデオにアクセスして、動的かつインタラクティブな結果を視聴できます。

GIM は COLMAP マルチビュー再構成の品質を効果的に向上させることができるため、対応する下流のタスクに「輝き」を加えることもできます。次の図は、GIM の COLMAP 結果を使用してガウススプラッティングを初期化する効果を示しています。いくつかの難しいシーンでは、SIFT と DKM に基づく COLMAP では効果的な初期化を提供できず、レンダリング効果が低下することがわかります。

図9. マルチビュー再構成後のガウススプラッティングに対する異なるマッチングモデルの影響。興味のある読者は、論文のホームページと紹介ビデオにアクセスして、動的な結果を見ることができます。

フレームワーク方式

図10. GIMフレームワーク

GIM フレームワークの方法は非常にシンプルです。この方法の核心は、ビデオ内のフレーム間の連続性を利用して、近距離フレームから遠距離フレームにマッチングを転送し、広いベースラインのトレーニング画像を取得することです。

最初のステップは、トレーニング用の一致するモデルとインターネットビデオを準備することです。

2 番目のステップでは、標準のトレーニングデータ (MegaDepth などのインターネット以外のビデオ) を使用してマッチングモデルをトレーニングし、他の補完的なマッチング方法を収集します。これらすべての方法を使用して、インターネットビデオのフレームを短い間隔でマッチングし、より密度の高いマッチング結果を取得します。外れ値フィルタリングを使用して、一致を再度フィルタリングします。

3 番目のステップでは、ビデオの時間的関係を使用して、より遠いフレームにマッチングを伝播し、オーバーラップが少なくベースラインが広いトレーニング画像ペアを取得します。

最後に、渡された画像ペアとそれに一致するラベルはデータ拡張され、トレーニングされます。

下の図は、インターネットビデオ上で GIM によって生成された一致するタグを視覚化したものです。これはほんの一部であり、トレーニングに使用されるデータの多様性は、著者が示すことができる画像よりもはるかに大きいです。

図11. インターネットビデオタグの視覚化

要約する

GIM の提案は GPT などの大規模モデルに触発されたもので、著者らは大量のビデオデータを使用してマッチングモデルをトレーニングし、より高い一般化パフォーマンスを実現するようになりました。 GIM のホームページのアドレスは xuelunshen.com/gim です。 GIM のホームページにアクセスして、より詳細で鮮明な紹介ビデオやオープンソースコードを閲覧し、GIM マッチング効果の HuggingFace デモをオンラインで体験してください。

<<: 陳丹奇チームの新しい研究: Llama-2 コンテキストが 128k に拡張され、メモリが 1/6 でスループットが 10 倍に

>>: SQL は ChatGPT を実行できますか?答えはYESです！