画像マッチングは、2 つの画像間のピクセルの対応を推定することを目的とした、コンピューター ビジョンにおける基本的なタスクです。画像マッチングは、3D 再構成、視覚的位置決め、ニューラル レンダリングなどの多くの視覚アプリケーションの基礎であり、前提条件となるステップです。その精度と効率は、その後の処理にとって非常に重要です。 従来のアルゴリズム (SIFT) では、長いベースラインや異常気象などの複雑なシナリオに直面した場合、マッチングの精度と密度が制限されることがよくあります。これらの問題を解決するために、近年、ディープラーニングをベースにしたマッチングモデルが普及しつつあります。しかし、真の値ラベルを持つ大規模で多様なトレーニング データが不足しているため、現在のマッチング モデルでは通常、ScanNet と MegaDepth でそれぞれ屋内と屋外の 2 つのモデルをトレーニングします。このシナリオ固有のトレーニングでは、モデルの一般化がゼロショット シナリオに制限され、未知のシナリオに拡張することはできません。さらに、既存のデータ構築方法では、再構築にRGBDスキャンやSfM + MVSに依存することが多く、効率と適用性が限られており、データを効果的に拡張してモデルのトレーニングに使用することができません。 ディープラーニング手法の一般化問題を解決するために、厦門大学、Intel、DJI の研究者らは、インターネット ビデオから一般化可能な画像マッチングを学習する GIM (Learning Generalizable Image Matcher from Internet Videos) を提案しました。 GIM は、マッチング モデルがインターネット ビデオから強力な一般化機能を学習できるようにする最初のトレーニング フレームワークです。 論文ホームページ: https://xuelunshen.com/gim 論文アドレス: https://arxiv.org/abs/2402.11095 論文ビデオ: https://www.youtube.com/watch?v=FU_MJLD8LeY コードアドレス: https://github.com/xuelunshen/gim オンラインモデル: https://huggingface.co/spaces/xuelunshen/gim-online GIM は、簡単にアクセスでき、多様で、ほぼ無限のインターネット ビデオ (図 1 を参照) から効果的な監視信号を抽出し、マッチング モデルをトレーニングします。 図1. インターネット動画の多様なシーン GIM フレームワークは、すべてのマッチング モデルのトレーニングに適用できます。図 2 に示すように、3 つのマッチング モデル DKM、LoFTR、SuperGlue は、密なマッチング、半密なマッチング、スパースなマッチングという 3 つの主流のマッチング パラダイムに対応しています。 GIM フレームワークでは、トレーニングに使用されるビデオが長いほど、マッチング モデルのパフォーマンスが高くなります。現在の曲線から判断すると、50 時間のビデオを使用した後でもパフォーマンスはまだ飽和していないため、より多くのビデオを使用するとパフォーマンスはさらに向上します。 図2. トレーニングに使用したビデオの長さとモデルの一般化性能の関係 マッチング モデルの一般化パフォーマンスを完全に測定するために、著者らは最初のゼロショット評価ベンチマーク (ZEB) を提案しました。図 3 に示すように、ZEB はさまざまなシーン、天気、カメラ モデルをカバーする 12 の公開データセットで構成されており、約 46,000 組のテスト画像が含まれています。 ZEB には、3000 個の画像ペアのテスト セットのみを含む MegaDepth や ScanNet などの既存の方法で一般的に使用されるデータよりもはるかに多くのデータが含まれています。 図3. ZEBの構成 図2のモデル一般化性能はZEBの評価結果から導き出されたものであり、具体的な評価結果は図4に示されています。平均ランク指標は、12 個のテスト シーケンスにおける一致するモデルの平均ランクを表します。ランクが 1 に近いほど、優れています。平均 AUC@5° は、ポーズ推定におけるマッチング モデルの精度を表し、値が高いほど優れています。 図4. マッチングモデルの一般化性能評価の結果 図 4 からわかるように、GIM はマッチング モデルの一般化パフォーマンスを大幅に向上させることができます。 GIM によるトレーニングを受ける前は、SuperGlue と LoFTR は、GL3、BLE、および GTA シーケンスにおいて従来のアルゴリズム RootSIFT よりもさらに劣っています。 GIM によるトレーニング後、両方のモデルの一般化パフォーマンスが大幅に向上しました。 先ほど述べたように、50 時間のビデオ データは、モデルのパフォーマンス限界にはほど遠いものです。 100時間のビデオデータを使用した著者の最新のトレーニング結果によると、パフォーマンスは51.2に達し、既存のモデルをはるかに上回っています。 図 5 に示すように、マッチング モデルの一般化パフォーマンスの向上は、下流のタスクにもメリットをもたらします。図 5 の再ローカリゼーション タスクでは、GIM は 1 つのモデルを他の特定のシナリオのモデルと比較するだけですが、それでもより良い結果が得られていることに注目に値します。 図5. 下流タスクにおけるマッチングモデルのパフォーマンス:ホモグラフィ行列推定、屋内および屋外の再位置特定タスク デュアルビュー画像マッチングの結果を下図に示します。 図6. デュアルビューマッチングによるマッチングモデルの可視化結果 さらに、図 7 に示すように、GIM モデルの強力な一般化パフォーマンスにより、トレーニング中に見たことのないポイント クラウド鳥瞰図マッチング タスクも処理できます。 図7. 点群鳥瞰図マッチングにおけるマッチングモデルの可視化結果 COLMAP は、マルチビュー再構成の一般的な方法として、視覚的位置特定やニューラルレンダリングなどの下流タスクで広く使用されています。 COLMAP のマッチング方法を GIM に置き換えると、より優れたマルチビュー再構成を実現でき、COLMAP の堅牢性が大幅に向上します。 図8. 異なるマッチングモデルがマルチビュー再構成に与える影響。最初の行は部分的に再構成された画像を示しています。 2行目には再構築結果が表示されます。興味のある読者は、論文のホームページと紹介ビデオにアクセスして、動的かつインタラクティブな結果を視聴できます。 GIM は COLMAP マルチビュー再構成の品質を効果的に向上させることができるため、対応する下流のタスクに「輝き」を加えることもできます。次の図は、GIM の COLMAP 結果を使用してガウス スプラッティングを初期化する効果を示しています。いくつかの難しいシーンでは、SIFT と DKM に基づく COLMAP では効果的な初期化を提供できず、レンダリング効果が低下することがわかります。 図9. マルチビュー再構成後のガウススプラッティングに対する異なるマッチングモデルの影響。興味のある読者は、論文のホームページと紹介ビデオにアクセスして、動的な結果を見ることができます。 フレームワーク方式図10. GIMフレームワーク GIM フレームワークの方法は非常にシンプルです。この方法の核心は、ビデオ内のフレーム間の連続性を利用して、近距離フレームから遠距離フレームにマッチングを転送し、広いベースラインのトレーニング画像を取得することです。 最初のステップは、トレーニング用の一致するモデルとインターネット ビデオを準備することです。 2 番目のステップでは、標準のトレーニング データ (MegaDepth などのインターネット以外のビデオ) を使用してマッチング モデルをトレーニングし、他の補完的なマッチング方法を収集します。これらすべての方法を使用して、インターネット ビデオのフレームを短い間隔でマッチングし、より密度の高いマッチング結果を取得します。外れ値フィルタリングを使用して、一致を再度フィルタリングします。 3 番目のステップでは、ビデオの時間的関係を使用して、より遠いフレームにマッチングを伝播し、オーバーラップが少なくベースラインが広いトレーニング画像ペアを取得します。 最後に、渡された画像ペアとそれに一致するラベルはデータ拡張され、トレーニングされます。 下の図は、インターネット ビデオ上で GIM によって生成された一致するタグを視覚化したものです。これはほんの一部であり、トレーニングに使用されるデータの多様性は、著者が示すことができる画像よりもはるかに大きいです。 図11. インターネットビデオタグの視覚化 要約するGIM の提案は GPT などの大規模モデルに触発されたもので、著者らは大量のビデオ データを使用してマッチング モデルをトレーニングし、より高い一般化パフォーマンスを実現するようになりました。 GIM のホームページのアドレスは xuelunshen.com/gim です。 GIM のホームページにアクセスして、より詳細で鮮明な紹介ビデオやオープンソース コードを閲覧し、GIM マッチング効果の HuggingFace デモをオンラインで体験してください。 |
<<: 陳丹奇チームの新しい研究: Llama-2 コンテキストが 128k に拡張され、メモリが 1/6 でスループットが 10 倍に
>>: SQL は ChatGPT を実行できますか?答えはYESです!
[[337550]] 2019年末現在、わが国の中核人工知能産業の規模は510億人民元を超え、人工知...
近年、人工知能はその地位の向上に伴い、国からますます注目を集めています。 2015年7月には「国務院...
道路交通自動運転技術の開発と応用の促進に関する運輸省の指導意見:道路交通の自動運転技術の開発と応用を...
4年待ちに待ったワールドカップがついにやって来ました。業界に数十億ドルの資金が投入され、世界人口の...
スマートシティはデジタル中国とスマート社会の中核を担うものとして国家戦略のレベルにまで高まり、現在中...
人工知能は私たちの仕事を奪うのでしょうか?シリコンバレーの幹部が今日の最先端の AI テクノロジーに...
Meta は 9 月 4 日に、研究者がコンピューター ビジョン モデルのバイアスを確認するのに役立...
科学技術は主要な生産力であると言われています。いつの時代になっても、この言葉は決して古くなることはあ...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
[[398462]]最後の顔認識画像の前処理では、前処理ステップを追加し、環境やその他の要因からの干...
AIトレンドがあらゆるところに広がる2021年を迎える準備はできていますか? 2021 年のトップ ...
パデュー大学のデジタルツインラボの最新の成果として、研究者らは、大規模言語モデル (LLM) を使用...