新しいNeRF技術は、ビデオを簡単に制御できる3Dモデルに変換できます。

翻訳者 |ブガッティ

レビュー | Chonglou

人間の動きが複雑で、環境によって見た目が微妙に異なるため、ビデオ映像からリアルなアニメーション3Dモデルを作成することは、コンピュータグラフィックスの分野で長年の課題となってきました。これまで、このプロセスは、マルチカメラリグや詳細な手動モデリングなどのコストと労力のかかる手法に依存していたため、一般的なアプリケーションや低予算のアプリケーションには実用的ではありませんでした。

この問題に対処するため、フラウンホーファー・ハインリッヒ・ヘルツ研究所のチームは、ニューラル・ラジアント・フィールド(NeRF)を使用して3D人間モデルをアニメーション化する新しい技術を採用しました。彼らの方法は、標準のRGBビデオクリップから直接これらのモデルを再構築できるため、高価な機器や膨大な人手が不要になります。

この技術は、アニメーション化された3Dモデルの作成を簡素化するための一歩であり、よりアクセスしやすく、リソース消費を抑えることができる可能性があります。次に、このアプローチの詳細を掘り下げ、生成されたアニメーションのパフォーマンスを分析し、この進歩が実践者や愛好家にとって何を意味するのかについて説明します。

リアルなデジタルヒューマンの追求

リアルなデジタルヒューマンを作成することは、映画、ビデオゲーム、仮想会議などに役立ちます。しかし、これらのデジタル人間をリアルに見せることは困難です。どの角度から見ても、どの光の下でも、どのポーズで見ても同じように見えなければ、偽物のように見えてしまいます。

現在、こうしたデジタルダブルを作るには、特別なカメラや機材を使って実際の人物をスキャンするなど、多大な労力が必要であり、ほとんどの人にとっては高価すぎて非現実的です。

通常のビデオを使用するという別の方法もあります。しかし、ビデオは平面的であり、立体的に見せるために必要な奥行きが失われます。平面画像が本物の3D人物のように見えるようにするには、ビデオ内のオブジェクトの奥行きや距離を計算できるインテリジェントなツールが必要です。

最近、カメラの角度ひとつから人の形を推測できる新技術が登場し、この点は向上しました。しかし、まだ改善の余地は大いにあります。これらのデジタル人物は、少し歪んでいたり、不自然に動いたりするなど、見た目が間違っていることがよくあります。本当の目標は、リアルに見えるようにするだけでなく、元のビデオにはなかった新しい動きをさせることでした。

新規ビュー合成のための NeRF

Neural Radiance Fields (NeRF)は、さまざまな視野角からリアルな3D画像を作成するための最先端技術です。これらは、光がシーンとどのように相互作用するかを予測するアルゴリズムを使用して機能し、これまで見たことのない角度からでも新しい画像をリアルに見せます。

NeRF は静止画像を現実のシーンのように見せることに成功しました。しかし、それらを使用して人が動いたり姿勢を変えたりする画像を作成するのは、より問題があります。これは、人々とその動きが複雑であり、 NeRF が明確な画像を作成するにはこの複雑さを理解する必要があるためです。

動く物体に対して NeRF をトレーニングする従来の方法では、画像がぼやける可能性があります。この問題に対処するために、研究者たちは新しいアプローチを提案した。彼らは、 NeRF をガイドするために、コンピューターで生成された人体モデルを使用しました。これにより、 NeRF は人体の動きの形状と形態を理解し、さまざまなポーズの人の鮮明で正確な画像を作成できます。このアプローチは、 NeRF が動的な現実世界のコンテンツ(人間の動きなど)を適切に処理できるようにするための重要なステップです。

技術的アプローチ: 表面配向NeRF

この研究では、ビデオ映像から人体の詳細な3D画像を生成するプロセスを概説した、 UVH -NeRFと呼ばれる技術を提案しています。方法は以下に詳しく説明します。

図2. ネットワークアーキテクチャ図

1.ビデオの3D人間モデルを調整する:最初のステップでは、 3D人間モデルをビデオ内の被写体に合わせる必要があります。これにより、後続のステップの基盤が構築され、ビデオシーケンス全体にわたって人物の形状と動きを反映する3D構造が提供されます。

2. NeRF を人間の幾何学に適応させる:この方法では、従来のNeRF空間を次のように変更します。

モデルの表面にポイントを投影する:ビデオ内の位置に対応する3Dモデルの表面上のポイントを特定します。これらのポイントは、 2Dイメージのテクスチャをモデルにマッピングするために使用されます。
モデル表面までの距離を計算:この手法では、空間内の各ポイントについてモデル表面までの距離を計算し、モデルに対するポイントの位置(モデル内、モデル表面上、またはモデル外)を決定するのに役立ちます。
関節モーションと組み合わせる:スケルトンの関節データを使用してモデルをアニメーション化し、さまざまなポーズの人物をレンダリングするのに役立ちます。

3.ニューラルネットワークによる空間理解の向上:ニューラルネットワークは、この空間変換を微調整するように学習され、NeRF の空間表現が正確で人間のモデルと一致していることを保証します。

さらに詳しい内容は次のとおりです。

一貫した構造の維持:この手法では、SMPL モデルを使用して均一な構造を維持し、異なるフレーム内の人物のポーズを正確に反映します。
NeRF の視点の変更:このアプローチは、NeRF の空間認識を変更して人間の形状を模倣します。人の動きに関係なく安定した状態を保ちます。
ポーズを正確に再現したレンダリングを作成:骨格データを NeRF に統合することで、システムはあらゆるポーズの解剖学的に正確な画像を生成できます。
不一致の修正:ニューラルマッピングモジュールは、モデルまたは翻訳内の小さなエラーを調整し、整合性と一貫性を確保します。

これらの手順により、NeRF は最終的に、さまざまなポーズや視点で人体を学習してアニメーション化し、多用途でダイナミックな 3D人物表現を作成できるようになります。この進歩は、デジタルメディア、仮想現実、および高忠実度の人間アバターを必要とするその他の分野でのアプリケーションに大きな期待が寄せられています。

結果

画像を見ると、左側にAI の推測、右側に実際の結果が表示されており、かなり近いことがわかります。 AIが生成したキャラクターは正しいポーズをとっており、衣服の折り目やしわも適切に表現されているようでした。まるで AI が賢い目を持っていて、人が何かをするときに服がどのように動くかを見ることができるかのようです。

しかし正直に言うと、完璧ではありません。目を細めれば、歪んだ細部が見えるでしょう。 AI は細かい部分を扱うのが苦手で、指がぼやけたり、顔の特徴が不正確になったりすることがあります。これは蝋人形が奇妙に見えるのと同じ理由ですが、わずか数フレームでこれらの画像を生成できるコンピューターとしては、それでもかなり印象的です。

この技術には大きな将来性がある。仮想現実や拡張現実について考えてみると、ピンポンボールの付いた変な衣装を着なくても、人々をできるだけリアルに見せたいと思うでしょう。

もちろん、最高水準に到達するまでにはまだやるべきことがたくさんあるが、それでも、デジタルヒューマンがさまざまな仮想空間を移動できるようにするための確実な一歩を踏み出した。

結論は

この研究の主な革新は、標準的な RGB ビデオ映像のみを使用して、神経放射場を 3D 人間モデルアニメーションに適用することに成功したことです。このアプローチにより、通常は複雑なカメラ装置と人手を必要とする、従来はリソースを大量に消費するデジタルヒューマンの作成プロセスが大幅に簡素化されます。本論文では、比較的簡単にアクセスできるビデオからの人間の動きなどの動的コンテンツにNeRF を適応できることを実証することにより、さまざまな分野でより広く適用できる実用的なアプローチを紹介しています。

この進歩は、この分野での将来の発展により、デジタル人間モデルをより経済的かつ効率的に生成できるようになり、ゲーム、バーチャルリアリティ、映画などの業界に利益をもたらす可能性があることを示唆しています。現在のアプローチには、特に複雑な動きや長いシーケンスに関しては限界がありますが、さらなる研究と改善の基盤となります。

本質的に、この研究はデジタル人間モデルをより利用しやすくするための一歩であり、プロのスタジオを超えて個人のクリエイターや小規模な制作チームにまでその使用を拡大する可能性を開きます。

原題:ビデオを制御可能な 3D モデルに変換する新しい NeRF 技術を発見、著者: Mike Young

<<: AIが材料科学を覆す！ディープマインドの主要な研究がネイチャー誌に掲載され、220万の結晶構造を予測し、人類より800年も先を行く

>>: AIの進化：「テクノロジーは2つの道に分かれる」