2秒で2枚の画像を3D再構築！このAIツールはGitHubで人気です、ネットユーザー：Soraを忘れてください

必要なのは2枚の写真だけで、追加のデータを測定する必要はありません——

ディンディン、完全な 3D クマが利用可能になりました。

DUSt3Rと呼ばれるこの新しいツールは非常に人気となり、リリース後すぐにGitHub のホットリストで 2 位にランクされました。

あるネットユーザーが実際に試してみたところ、写真を 2 枚撮るだけで実際にキッチンを再現することができました。このプロセス全体にかかった時間は 2 秒未満でした。

（3D画像に加えて、深度マップ、信頼度マップ、ポイントクラウドマップも提供できます）

この友人はあまりにもショックを受けて、こう叫びました。

今はソラのことを忘れましょう。これは私たちが実際に見て触れることができるものです。

実験では、DUSt3R が単眼/多眼深度推定と相対姿勢推定の 3 つのタスクで SOTA を達成したことが示されています。

著者チーム（フィンランドのアアルト大学 + NAVER LABS ヨーロッパ人工知能研究所）も強いメッセージを発しています。

私たちは、3D ビジョンのタスクを誰にとってもより簡単にしたいと考えています。

それで、どうやってやるんですか?

「オールインワン」

マルチビューステレオ再構成(MVS)タスクの場合、最初のステップは、内部パラメータと外部パラメータを含むカメラパラメータを推定することです。

この操作は面倒で面倒ですが、3 次元空間でのピクセルのその後の三角測量には不可欠であり、比較的優れたパフォーマンスを備えたほぼすべての MVS アルゴリズムの不可欠な部分です。

この研究では、著者チームが導入したDUSt3Rはまったく異なるアプローチを採用しました。

カメラのキャリブレーションや視点の姿勢に関する事前情報は必要なく、任意の画像の高密度または制約のない 3D 再構築を完了できます。

ここで、チームは、単眼再構成と両眼再構成を統合したポイントマップ回帰として、ペア再構成問題を定式化します。

2 つ以上の入力画像が提供される場合、すべてのポイントマップのペアは、シンプルでありながら効果的なグローバルアライメント戦略を通じて共通の参照フレームに表現されます。

下の図に示すように、カメラのポーズと固有の特徴が不明な写真のセットが与えられると、DUSt3R は対応するポイントマップのセットを出力します。これにより、カメラパラメーター、ピクセルの対応、深度マップ、完全に一貫した 3D 再構築効果など、通常は同時に推定するのが難しいさまざまな幾何学的量を直接復元できます。

（著者は、DUSt3R は単一の入力画像でも動作することを思い出させます）

具体的なネットワークアーキテクチャに関しては、DUSt3R は CroCo (複数のビューにわたる 3D ビジョンタスクの自己教師あり事前トレーニングに関する研究)にヒントを得た標準の Transformer エンコーダーとデコーダーに基づいており、単純な回帰損失を使用してトレーニングされています。

下の図に示すように、シーンの 2 つのビュー(I1、I2)は、まず共有 ViT エンコーダーを使用してシャム方式でエンコードされます。

結果として得られるトークン表現( ^F1と^F2 )は 2 つの Transformer デコーダーに渡され、相互注意を介して継続的に情報を交換します。

最後に、2 つの回帰ヘッドは、対応する 2 つのポイントマップと関連する信頼度マップを出力します。

両方のドットマップが最初の画像と同じ座標系で表現されることが重要です。