2Dを3Dにするには、たった2枚の写真だけが必要です。このAIは、ろうそくを吹き消すプロセスを想像することができます。第一著者と第二著者はともに中国人です。

2Dを3Dにするには、たった2枚の写真だけが必要です。このAIは、ろうそくを吹き消すプロセスを想像することができます。第一著者と第二著者はともに中国人です。

廃棄フィルム2枚がパチンと貼り合わされました!

見逃した素晴らしい瞬間をすぐに蘇らせることができ、効果も2Dから3Dにアップグレードできます。

見てください、小さな男の子のかわいい笑顔がすぐに現れます。

誕生日ケーキのろうそくを吹き消す瞬間も再現されました。

笑う過程はすごく癒される〜

私たちが言いたいのは、今度はカメラに残されたいたずらっ子や毛むくじゃらの子供たちの無駄な写真が、ようやく救われるということです!

そして、それがポストプロダクション合成の結果であることがわかる方法はなく、まるでオリジナルで撮影されたかのようです。

これは、Google、コーネル大学、ワシントン大学の最近の共同成果です。類似した写真 2 枚のみを使用して 3D の瞬間を復元することができ、CVPR 2022 に含まれています。

この論文の第一著者と第二著者はともに中国人で、第一著者は浙江大学を卒業している。

2枚の写真を使って、中間のシーンを前後に予測します。

この方法は、連続撮影によって作成された一連の写真など、2 枚の写真が非常に似ている場合に適しています。

この方法の鍵となるのは、2 枚の画像を特徴ベースの階層化深度画像 (LDI) のペアに変換し、シーン フローによって強化することです。

全体のプロセスでは、2 枚の写真をそれぞれ「開始点」と「終了点」と見なし、2 枚の写真の間のあらゆる瞬間の変化を徐々に予測することができます。

具体的には、次のプロセスになります。

まず、ホモグラフィ行列を使用して 2 枚の写真の位置合わせを行い、2 枚の写真の密な深度マップをそれぞれ予測します。

次に、各 RGBD イメージはカラー LDI に変換され、背景の遮蔽された部分は奥行き知覚によって修復されます。

このうち、RGB 画像は、通常の RGB 画像 + 深度画像です。

次に、2次元特徴抽出器を使用してLDIの各カラーレイヤーを修復し、特徴レイヤーを取得し、2つの特徴レイヤーを生成します。

次のステップは、シーンの動きをシミュレートすることです。

2 つの入力画像間の深度と光学フローを予測することで、LDI 内の各ピクセルのシーン フローを計算できます。

2 つの画像の間に新しいビューをレンダリングして 3D にアップグレードする場合は、特徴値を持つ 2 セットの LDI を 3D ポイント クラウドのペアにアップグレードし、シーン フローに沿って中間の時点まで双方向に移動する必要があります。

次に、3 次元の特徴点が投影および拡張され、前方および後方の 2 次元の特徴マップと対応する深度マップが形成されます。

最後に、これらのマッピングはタイムライン内の対応する時点の重みと線形に混合され、その結果が画像合成ネットワークに渡されて最終的な効果が得られます。

実験結果

データの観点から見ると、この方法はすべてのエラー指標においてベースライン レベルよりも高くなっています。

UCSDデータセットでは、この方法により、(d)に示すように、画像の詳細をより多く保存できます。

NVIDIA データセットでのアブレーション実験では、この方法がレンダリング品質の向上に効果的であることが示されています。

ただし、いくつか問題があります。2 つの画像間の変化が大きい場合、オブジェクトが間違った場所に配置されます。

例えば、下の写真では、ワインボトルの口が動いてしまい、変化しないはずのワイングラスも揺れ始めました。

また、写真に全域が写っていないと、下の写真のコアラに餌をあげている手のように、合成時にどうしても「切断」が生じてしまいます。

論文の宛先:

https://3d-moments.github.io/

<<:  製造業におけるコンピューター ビジョン: 機会と導入のヒント

>>:  物理学と機械学習が出会うとき: 物理学の知識に基づく機械学習のレビュー

ブログ    

推薦する

産業用AIが製造業に変革をもたらす5つの方法

すべての分野の中で、人工知能は製造業に最も大きな影響を与えており、この変革はまだ始まったばかりです。...

...

必要なものを教えていただければ、当社のAIがコードを作成します

何をしたいのかを伝えるだけで、AI が自動的にコードを作成します。今、私たちはこの目標に一歩近づきま...

...

Logreduce: Python と機械学習でログノイズを除去する

Logreduce は、大量のログ データから異常を検出することでデバッグ時間を節約できます。継続的...

MITのロボットは、浸透する無線周波数を使って隠れた物体を感知する

[[391062]]海外メディアの報道によると、世界中の研究者がロボットが周囲の状況をよりよく認識...

ディープラーニングと機械学習を混同しないでください。

[[313942]] [51CTO.com クイック翻訳] ご存知のとおり、ディープラーニングは人...

...

レゴブロックを積み上げるように: ニューラルネットワークの数学をゼロから説明する

ニューラル ネットワークは、線形モジュールと非線形モジュールを巧みに組み合わせたものです。これらのモ...

検索エンジン技術のランキングアルゴリズムを解読する

[[117973]] 1. ページランクPageRank は、世界で最も人気のある検索エンジンである...

...

この世界規模の問題に対して、ドローンはどれほどの助けとなるのでしょうか?

火事を起こすのは簡単ですが、消すのは難しいです。これは世界的な問題ですが、これを効果的に予防し、迅速...

大規模モデルを低コストで便利に使用するには? Amazon Web Services が生成型 AI を実現する方法

現在、私たちは「百機種戦争」の時代に突入しており、テクノロジー企業は人工知能分野で主導権を握ろうと、...

ビッグデータ、クラウドコンピューティング、人工知能が統合され、セキュリティ分野に応用されている

過去2年間、安全都市、インテリジェント交通、スノーブライトプロジェクトの継続的な発展と深化に伴い、ビ...

Llama 2を完全に置き換えます!白川2は歴史上最も完全なトレーニングの詳細を明らかにする

この国では、ラマの時代は終わった。 9月6日、百川知能は7Bと13Bのベースとチャットバージョンを含...