このAIはガールフレンドの自撮りを手伝います: 写真から3D動画を生成

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

自撮りが大好きな女の子たちは、最も美しい角度を見つけるために、いつも美しい写真を撮るのに長い時間をかけます。

たとえば、この女の子は本棚の前で 4 枚の自撮り写真を撮りましたが、どれにも満足できませんでした。

最も美しい角度を選ぶ作業を AI に任せることができるので、女の子たちはもう心配する必要がなくなりました。ほんの数枚の写真で、さまざまな角度からの自撮り写真を生成できます。

そして、AI が生成した動画の中で最も美しいと思う角度を見つけて、Moments で共有できます。

この AI はワシントン大学と Google が共同で開発したものです。

この方法は複雑な機器を必要とせず、スマートフォンのカメラとCPUのみを使用して計算とレンダリングを完了できます。これは、3D画像を生成するためのiPhone 12 Proの内蔵LIDARよりもはるかに安価です。

原理

nerfies という名前を聞くと、デジャブを感じますか? Nerfies は、実際には NeRF と Selfies という 2 つの単語を組み合わせたものです。

NeRF (Neural Radiance Field) は、Google が最近開発した 2D 画像から 3D モデルへの変換ですが、NeRF では、処理中は対象者が完全に静止している必要があります。

例えば、上の女の子が自撮り写真を4枚撮ったとき、頭の姿勢がどうしても変わってしまいました。NeRFを直接適用すると、その影響はひどいものになるでしょう。

ナーフィーとは、非剛体的に変形されたシーンを再構築できる、変形可能なニューラル放射場(NeRF) です。

著者らは、NeRF に基づいて、幾何学と物理シミュレーションの原理に基づく NeRF の弾性正規化を提案し、これにより 2D から 3D への変換の堅牢性がさらに向上しました。

変動性 NeRF では、望ましくない局所最小値を回避するために、弾性正則化、背景正則化、およびアニーリング手法が導入されました。

著者らは、各画像に潜在的な変形コード（ω）と外観コード（ψ）を関連付けています。カメラ光線は観測フレーム内でトレースされ、光線に沿ったサンプルは変形フィールドを使用して標準フレームに変換されます。変形フィールドは変形コード ω によって MLP としてエンコードされます。

さらに、変換されたサンプル位置 (x0、y0、z0)、視線方向 (θ、φ)、および外観コード ψ は、テンプレート NeRF モジュールを照会し、光線に沿ってサンプルを統合するための MLP への入力として使用されます。

遊び方が増える

可変 NeRF は、単に自撮りをするだけでなく、もっと興味深い目的に使用できます。

たとえば、「ヒッチコックズーム」効果を作成するには、以前は特別な写真撮影スキルが必要だったり、遠くから近くまでビデオを撮影して後処理したりする必要がありました。今必要なのは数枚の写真だけです。

シーンの角度を変える必要はないが、キャラクターの姿勢を変える必要がある場合はどうすればよいでしょうか?

Morphability NeRF は、任意の頭部ポーズの写真を左右間で線形補間できます。

最後に、もう 1 つの用途は、手ぶれ補正ビデオを生成することです。可変 NeRF はあらゆる角度で画像を生成できるため、手ぶれは手で処理し、安定性は NeRF に任せることができます。

作者はまだソースコードを公開していませんが、プロジェクトのホームページに GitHub ボタンが配置されており、オープンソース化する準備ができていることを示しているようです。ぜひ試してみたいですか?

プロジェクトアドレス:
https://nerfies.github.io/

論文の宛先:
https://arxiv.org/abs/2011.12948

<<: 第4回パラダイム NeurIPS 2020: ナレッジグラフ埋め込みの自動化

>>: 外国企業が人間の介入を必要としないAI犬訓練機を開発

ブログ

MetaがAI画像編集ツールEmu Editを発表 / ビデオ：1000万のデータセットでトレーニングされ、競合他社よりもはるかに優れていると主張

このAIはガールフレンドの自撮りを手伝います: 写真から3D動画を生成

原理

遊び方が増える

MetaがAI画像編集ツールEmu Editを発表 / ビデオ：1000万のデータセットでトレーニングされ、競合他社よりもはるかに優れていると主張

今日、私たちはすべてのお金を AI に与える勇気があるでしょうか?

アマゾンが新しいAIツールを発表、数千の企業がBedrockを試すよう呼びかけ

清華大学のAI学生が顔を見せて歌う、この応用は将来に期待される

最先端のディープラーニングデバイスのベンチマーク：Nvidia Jetson Nanoが勝利

AIは期待に応えられていない？これらの人為的ミスが発生した可能性がある

12以上の学習リソースを検討した後、このAI学習パスをまとめました。

推薦する

余分な指などのバグを解決できる「人間のような」AI画像作成モデルをMetaがリリース

テキスト認識と表認識、このライブラリは直接呼び出します

自然言語処理はどのように機能しますか? NLPパイプラインの構築方法を段階的に教えます

ポピュラーサイエンス：自動運転車はなぜ制御を失うのか？「道路の汚れ」が原因か

ワンクリックで 2D GAN を「3D」化、CUHK が教師なし 3D 再構築の新しい方法を提案

Uberの自動運転車による死亡事故の捜査に新たな進展：横断歩道の外を歩く歩行者を識別できない

科学者たちは古い携帯電話を分解してリサイクルするためのAI搭載ロボットを開発している

なぜ記憶はAIの発展を妨げる問題となるのでしょうか？

IBMとNASAが協力して地理空間AIモデルをオープンソース化し、気候科学の発展を目指す

天才少年が自動運転の「自転車」を製作、ネットユーザー「テスラも見たら泣くだろう」

Meta AIは、ImageNetの事前トレーニングを超えて、小規模データセット向けの自己教師付き事前トレーニングであるSplitMaskを提案しています。

顔認識アプリケーションにおける人工知能の利点と欠点についての簡単な説明