新しいNeRF技術は、ビデオを簡単に制御できる3Dモデルに変換できます。

新しいNeRF技術は、ビデオを簡単に制御できる3Dモデルに変換できます。

翻訳者 |ブガッティ

レビュー | Chonglou

人間の動きが複雑で、環境によって見た目微妙に異なるため、ビデオ映像からリアルなアニメーション3Dモデルを作成することは、コンピュータグラフィックスの分野で長年の課題となってきましたこれまで、このプロセスは、マルチカメラ リグや詳細な手動モデリングなどのコスト労力のかかる手法に依存していたため、一般的なアプリケーションや低予算のアプリケーションには実用的ではありませんでした

この問題に対処するため、フラウンホーファー・ハインリッヒ・ヘルツ研究所のチームは、ニューラル・ラジアント・フィールド(NeRF)を使用して3D人間モデルをアニメーション化する新しい技術を採用しました。彼らの方法は、標準のRGBビデオ クリップから直接これらのモデルを再構築できるため、高価な機器や膨大な人手が不要になります

この技術はアニメーション化された3Dモデル作成を簡素化するための一歩であり、よりアクセスしやすく、リソース消費を抑えることができる可能性があります次に、このアプローチの詳細を掘り下げ、生成されたアニメーションのパフォーマンスを分析しこの進歩実践者や愛好家にとって何を意味するのかについて説明します。

リアルなデジタルヒューマンの追求

リアルなデジタルヒューマンを作成することは、映画、ビデオゲーム、仮想会議などに役立ちます。しかし、これらのデジタル人間をリアルに見せることは困難です。どの角度から見てもどの光の下でも、どのポーズで見て同じように見えなけれ偽物のように見えてしまいます

現在、こうしたデジタルダブルを作るには特別なカメラや機材を使って実際の人物をスキャンするなど、多大な労力が必要であり、ほとんどの人にとっては高価すぎて非現実的です

通常のビデオを使用するという別の方法もあります。しかし、ビデオは平面的であり、立体的に見せるために必要な奥行きが失われます。平面画像が本物3D人物のように見えるようにするには、ビデオ内のオブジェクトの奥行きや距離を計算できるインテリジェントなツールが必要です

最近、カメラの角度ひとつから人の形を推測できる新技術が登場し、この点は向上しました。しかし、まだ改善余地は大いにあります。これらのデジタル人物は少し歪んでいたり、不自然に動いたりするなど、見た目が間違っていることがよくあります本当の目標はリアルに見えるようにするだけでなくのビデオにはなかった新しい動きさせることでした

新規ビュー合成のための NeRF

Neural Radiance Fields (NeRF)、さまざまな視野角からリアルな3D画像を作成するための最先端技術ですこれらは、光がシーンとどのように相互作用するかを予測するアルゴリズムを使用して機能し、これまで見たことのない角度からでも新しい画像をリアルに見せます

NeRF は静止画像を現実のシーンのように見せることに成功しました。しかし、それらを使用して人が動いたり姿勢を変えたりする画像作成するのは、より問題があります。これは人々とその動きが複雑であり NeRF が明確な画像を作成するにはこの複雑さを理解する必要があるためです

動く物体に対して NeRF をトレーニングする従来の方法では、画像がぼやける可能性があります。この問題に対処するために、研究者たちは新しいアプローチを提案した。彼らは、 NeRF をガイドするために、コンピューターで生成された人体モデルを使用しました。これにより、 NeRF は人体の動きの形状と形態を理解し、さまざまなポーズの人の鮮明で正確な画像を作成できます。このアプローチは、 NeRF が動的な現実世界のコンテンツ(人間の動きなど)適切に処理できるようにするための重要なステップです

技術的アプローチ: 表面配向NeRF

この研究では、ビデオ映像から人体の詳細な3D画像を生成するプロセスを概説した UVH -NeRFと呼ばれる技術を提案しています方法は以下に詳しく説明します

図2. ネットワークアーキテクチャ図

1.ビデオの3D人間モデルを調整する:最初のステップでは、 3D人間モデルをビデオ内の被写体に合わせる必要があります。これにより後続のステップの基盤が構築され、ビデオ シーケンス全体にわたって人物の形状と動きを反映する3D構造が提供されます

2. NeRF を人間の幾何学適応させる:この方法では、従来のNeRF空間次のように変更します

  • モデルの表面にポイントを投影する:ビデオ内の位置に対応する3Dモデルの表面上のポイントを特定しますこれらのポイントは、 2Dイメージのテクスチャをモデルにマッピングするために使用されます。
  • モデル表面までの距離を計算:この手法では、空間内の各ポイントについてモデル表面までの距離を計算し、モデルに対するポイントの位置(モデル内、モデル表面上、またはモデル外)​​を決定するのに役立ちます
  • 関節モーションと組み合わせる:スケルトンの関節データを使用してモデルアニメーション化し、さまざまなポーズの人物をレンダリングするのに役立ちます。

3.ニューラル ネットワークによる空間理解の向上:ニューラル ネットワークは、この空間変換を微調整するように学習され、NeRF の空間表現が正確で人間のモデルと一致していることを保証します。

さらに詳しい内容は次のとおりです。

  • 一貫した構造の維持:この手法では、SMPL モデルを使用して均一な構造を維持し、異なるフレーム内の人物のポーズを正確に反映します。
  • NeRF の視点の変更:このアプローチは、NeRF の空間認識を変更して人間の形状を模倣します。人の動きに関係なく安定した状態を保ちます。
  • ポーズを正確に再現したレンダリングを作成:骨格データを NeRF に統合することで、システムはあらゆるポーズの解剖学的に正確な画像を生成できます
  • 不一致の修正:ニューラル マッピング モジュールは、モデルまたは翻訳内の小さなエラー調整し、整合性と一貫性を確保します。

これらの手順により、NeRF は最終的に、さまざまなポーズや視点で人体を学習しアニメーション化し、多用途でダイナミックな 3D人物表現を作成できるようになります。この進歩は、デジタル メディア、仮想現実、および高忠実度の人間アバターを必要とするその他の分野でのアプリケーションに大きな期待が寄せられています。

結果

画像を見ると、左側AI の推測、右側に実際の結果が表示されており、かなり近いことがわかります。 AIが生成したキャラクターは正しいポーズをとっており、衣服の折り目やしわも適切に表現されているようでしたまるで AI が賢い目を持っていて、人が何かをするときに服がどのように動くかを見ることができるのようです

しかし正直に言うと、完璧ではありません。目を細めれば歪んだ細部が見えるでしょう AI は細かい部分を扱うの苦手、指がぼやけたり、顔の特徴が不正確になったりすることがあります。これは蝋人形が奇妙に見えるのと同じ理由ですがわずか数フレームでこれらの画像を生成できるコンピューターとしては、それでもかなり印象的です

この技術には大きな将来性がある。仮想現実や拡張現実について考えてみると、ピンポンボールの付いた変な衣装を着なくても、人々をできるだけリアルに見せたいと思うでしょう。

もちろん、最高水準に到達するまでにはまだやるべきことがたくさんあるが、それでも、デジタルヒューマンがさまざまな仮想空間を移動できるようにするための確実な一歩を踏み出した

結論は

この研究の主な革新は、標準的な RGB ビデオ映像のみを使用して、神経放射場を 3D 人間モデル アニメーションに適用することに成功したことです。このアプローチにより、通常は複雑なカメラ装置と人手を必要とする従来はリソースを大量に消費するデジタルヒューマンの作成プロセスが大幅に簡素化されます。本論文では、比較的簡単にアクセスできるビデオからの人間の動きなどの動的コンテンツNeRF を適応できることを実証することによりさまざまな分野でより広く適用できる実用的なアプローチを紹介しています

この進歩は、この分野での将来の発展により、デジタル人間モデルより経済的かつ効率的に生成できるようになり、ゲーム、バーチャルリアリティ、映画などの業界に利益をもたらす可能性があることを示唆しています。現在のアプローチには、特に複雑な動きや長いシーケンスに関しては限界がありますがさらなる研究と改善の基盤となります。

本質的に、この研究はデジタル人間モデルをより利用しやすくするための一歩でありプロのスタジオを超えて個人のクリエイターや小規模な制作チームにまでその使用を拡大する可能性を開きます

原題:ビデオを制御可能な 3D モデルに変換する新しい NeRF 技術を発見、著者: Mike Young

<<:  AIが材料科学を覆す!ディープマインドの主要な研究がネイチャー誌に掲載され、220万の結晶構造を予測し、人類より800年も先を行く

>>:  AIの進化:「テクノロジーは2つの道に分かれる」

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

防衛とセキュリティの再定義に貢献するAIスタートアップ

人工知能の誕生は第二次世界大戦中に連合国が暗号解読機を開発し、それがナチスドイツのエニグマ暗号を解読...

データセンター: ジェネレーティブ AI 経済の推進

しかし、こうした大騒ぎのなか、生成 AI の可能性を最大限に引き出すために必要なインフラストラクチャ...

コンピュータビジョンプロジェクト: 10 個の高品質オープンソースデータセットがリリースされました

コンピューター ビジョンは、ほぼすべての産業分野で進歩を加速させています。 コンピューター ビジョン...

...

OpenAI が ChatGPT にマルチモーダル入力機能を追加しました。ご存知ですか?

OpenAIのCEO、サム・アルトマン氏は昨夜Twitterで、ChatGPTに音声と画像の機能が...

ChatGPTを使用して小児疾患を診断しますか?新たな研究がこれに冷水を浴びせる:正解率はわずか17%

1月4日、ニューヨークのコーエン小児医療センターの3人の小児科医が、大規模言語モデルChatGPT...

Java で実装された一貫性ハッシュ アルゴリズムの詳細な研究

一貫性ハッシュアルゴリズムコンシステントハッシュアルゴリズムについては、これまでのブログ記事で何度も...

...

マイクロソフトとグーグルのAIジレンマ:お金を稼ぐにはもっとお金を使う必要がある

7月26日のニュースによると、将来、人工知能はマイクロソフトやアルファベットなどのテクノロジー大手に...

新しい研究:ハトは人工知能と同様の方法で問題を解決する

オハイオ州立大学とアイオワ大学の研究者による研究で、ハトは問題を解決する際に人工知能に似た「力ずく」...

テスラロボットに人間の脳意識が搭載される?マスク氏独占インタビュー:AIがミスを犯すことへの恐怖

いつも衝撃的な発言をするマスク氏がまたもや発言した。 最近、Insiderの親会社であるAxel S...

中関村科学技術の張傑氏との対話:大規模モデルを実装するには従うべき「テクニック」がある

ゲスト | 張潔インタビュー | 張小南編集者 | 徐潔成制作:51CTO テクノロジースタック(W...

ストレージパフォーマンスのボトルネックを解消し、AIアプリケーションの迅速な開発を実現

古典的な「樽理論」によれば、樽にどれだけの水が入るかは、一番低い木材によって決まります。 [[397...