新しいNeRF技術は、ビデオを簡単に制御できる3Dモデルに変換できます。

新しいNeRF技術は、ビデオを簡単に制御できる3Dモデルに変換できます。

翻訳者 |ブガッティ

レビュー | Chonglou

人間の動きが複雑で、環境によって見た目微妙に異なるため、ビデオ映像からリアルなアニメーション3Dモデルを作成することは、コンピュータグラフィックスの分野で長年の課題となってきましたこれまで、このプロセスは、マルチカメラ リグや詳細な手動モデリングなどのコスト労力のかかる手法に依存していたため、一般的なアプリケーションや低予算のアプリケーションには実用的ではありませんでした

この問題に対処するため、フラウンホーファー・ハインリッヒ・ヘルツ研究所のチームは、ニューラル・ラジアント・フィールド(NeRF)を使用して3D人間モデルをアニメーション化する新しい技術を採用しました。彼らの方法は、標準のRGBビデオ クリップから直接これらのモデルを再構築できるため、高価な機器や膨大な人手が不要になります

この技術はアニメーション化された3Dモデル作成を簡素化するための一歩であり、よりアクセスしやすく、リソース消費を抑えることができる可能性があります次に、このアプローチの詳細を掘り下げ、生成されたアニメーションのパフォーマンスを分析しこの進歩実践者や愛好家にとって何を意味するのかについて説明します。

リアルなデジタルヒューマンの追求

リアルなデジタルヒューマンを作成することは、映画、ビデオゲーム、仮想会議などに役立ちます。しかし、これらのデジタル人間をリアルに見せることは困難です。どの角度から見てもどの光の下でも、どのポーズで見て同じように見えなけれ偽物のように見えてしまいます

現在、こうしたデジタルダブルを作るには特別なカメラや機材を使って実際の人物をスキャンするなど、多大な労力が必要であり、ほとんどの人にとっては高価すぎて非現実的です

通常のビデオを使用するという別の方法もあります。しかし、ビデオは平面的であり、立体的に見せるために必要な奥行きが失われます。平面画像が本物3D人物のように見えるようにするには、ビデオ内のオブジェクトの奥行きや距離を計算できるインテリジェントなツールが必要です

最近、カメラの角度ひとつから人の形を推測できる新技術が登場し、この点は向上しました。しかし、まだ改善余地は大いにあります。これらのデジタル人物は少し歪んでいたり、不自然に動いたりするなど、見た目が間違っていることがよくあります本当の目標はリアルに見えるようにするだけでなくのビデオにはなかった新しい動きさせることでした

新規ビュー合成のための NeRF

Neural Radiance Fields (NeRF)、さまざまな視野角からリアルな3D画像を作成するための最先端技術ですこれらは、光がシーンとどのように相互作用するかを予測するアルゴリズムを使用して機能し、これまで見たことのない角度からでも新しい画像をリアルに見せます

NeRF は静止画像を現実のシーンのように見せることに成功しました。しかし、それらを使用して人が動いたり姿勢を変えたりする画像作成するのは、より問題があります。これは人々とその動きが複雑であり NeRF が明確な画像を作成するにはこの複雑さを理解する必要があるためです

動く物体に対して NeRF をトレーニングする従来の方法では、画像がぼやける可能性があります。この問題に対処するために、研究者たちは新しいアプローチを提案した。彼らは、 NeRF をガイドするために、コンピューターで生成された人体モデルを使用しました。これにより、 NeRF は人体の動きの形状と形態を理解し、さまざまなポーズの人の鮮明で正確な画像を作成できます。このアプローチは、 NeRF が動的な現実世界のコンテンツ(人間の動きなど)適切に処理できるようにするための重要なステップです

技術的アプローチ: 表面配向NeRF

この研究では、ビデオ映像から人体の詳細な3D画像を生成するプロセスを概説した UVH -NeRFと呼ばれる技術を提案しています方法は以下に詳しく説明します

図2. ネットワークアーキテクチャ図

1.ビデオの3D人間モデルを調整する:最初のステップでは、 3D人間モデルをビデオ内の被写体に合わせる必要があります。これにより後続のステップの基盤が構築され、ビデオ シーケンス全体にわたって人物の形状と動きを反映する3D構造が提供されます

2. NeRF を人間の幾何学適応させる:この方法では、従来のNeRF空間次のように変更します

  • モデルの表面にポイントを投影する:ビデオ内の位置に対応する3Dモデルの表面上のポイントを特定しますこれらのポイントは、 2Dイメージのテクスチャをモデルにマッピングするために使用されます。
  • モデル表面までの距離を計算:この手法では、空間内の各ポイントについてモデル表面までの距離を計算し、モデルに対するポイントの位置(モデル内、モデル表面上、またはモデル外)​​を決定するのに役立ちます
  • 関節モーションと組み合わせる:スケルトンの関節データを使用してモデルアニメーション化し、さまざまなポーズの人物をレンダリングするのに役立ちます。

3.ニューラル ネットワークによる空間理解の向上:ニューラル ネットワークは、この空間変換を微調整するように学習され、NeRF の空間表現が正確で人間のモデルと一致していることを保証します。

さらに詳しい内容は次のとおりです。

  • 一貫した構造の維持:この手法では、SMPL モデルを使用して均一な構造を維持し、異なるフレーム内の人物のポーズを正確に反映します。
  • NeRF の視点の変更:このアプローチは、NeRF の空間認識を変更して人間の形状を模倣します。人の動きに関係なく安定した状態を保ちます。
  • ポーズを正確に再現したレンダリングを作成:骨格データを NeRF に統合することで、システムはあらゆるポーズの解剖学的に正確な画像を生成できます
  • 不一致の修正:ニューラル マッピング モジュールは、モデルまたは翻訳内の小さなエラー調整し、整合性と一貫性を確保します。

これらの手順により、NeRF は最終的に、さまざまなポーズや視点で人体を学習しアニメーション化し、多用途でダイナミックな 3D人物表現を作成できるようになります。この進歩は、デジタル メディア、仮想現実、および高忠実度の人間アバターを必要とするその他の分野でのアプリケーションに大きな期待が寄せられています。

結果

画像を見ると、左側AI の推測、右側に実際の結果が表示されており、かなり近いことがわかります。 AIが生成したキャラクターは正しいポーズをとっており、衣服の折り目やしわも適切に表現されているようでしたまるで AI が賢い目を持っていて、人が何かをするときに服がどのように動くかを見ることができるのようです

しかし正直に言うと、完璧ではありません。目を細めれば歪んだ細部が見えるでしょう AI は細かい部分を扱うの苦手、指がぼやけたり、顔の特徴が不正確になったりすることがあります。これは蝋人形が奇妙に見えるのと同じ理由ですがわずか数フレームでこれらの画像を生成できるコンピューターとしては、それでもかなり印象的です

この技術には大きな将来性がある。仮想現実や拡張現実について考えてみると、ピンポンボールの付いた変な衣装を着なくても、人々をできるだけリアルに見せたいと思うでしょう。

もちろん、最高水準に到達するまでにはまだやるべきことがたくさんあるが、それでも、デジタルヒューマンがさまざまな仮想空間を移動できるようにするための確実な一歩を踏み出した

結論は

この研究の主な革新は、標準的な RGB ビデオ映像のみを使用して、神経放射場を 3D 人間モデル アニメーションに適用することに成功したことです。このアプローチにより、通常は複雑なカメラ装置と人手を必要とする従来はリソースを大量に消費するデジタルヒューマンの作成プロセスが大幅に簡素化されます。本論文では、比較的簡単にアクセスできるビデオからの人間の動きなどの動的コンテンツNeRF を適応できることを実証することによりさまざまな分野でより広く適用できる実用的なアプローチを紹介しています

この進歩は、この分野での将来の発展により、デジタル人間モデルより経済的かつ効率的に生成できるようになり、ゲーム、バーチャルリアリティ、映画などの業界に利益をもたらす可能性があることを示唆しています。現在のアプローチには、特に複雑な動きや長いシーケンスに関しては限界がありますがさらなる研究と改善の基盤となります。

本質的に、この研究はデジタル人間モデルをより利用しやすくするための一歩でありプロのスタジオを超えて個人のクリエイターや小規模な制作チームにまでその使用を拡大する可能性を開きます

原題:ビデオを制御可能な 3D モデルに変換する新しい NeRF 技術を発見、著者: Mike Young

<<:  AIが材料科学を覆す!ディープマインドの主要な研究がネイチャー誌に掲載され、220万の結晶構造を予測し、人類より800年も先を行く

>>:  AIの進化:「テクノロジーは2つの道に分かれる」

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

AI特許出願件数は世界第1位で、世界総出願件数の約4分の3を占める。

先日蘇州で開催された中国人工知能産業2020年年次大会で発表された「2020年中国人工知能発展報告書...

Scikit-learn をご存知ですか?これらの機能をご存知ですか?

[[229302]]ビッグデータ概要編纂者: 王暁奇、大潔瓊、アイリーンScikit-learn ...

私は 8 つの企業と面接しましたが、機械学習に関する次のような質問をされました…

【はじめに】 筆者は今年初めからインドでデータサイエンス、機械学習、ディープラーニングの分野で仕事...

...

GPT 1周年深夜の雑談: プログラミングなしで誰もが GPT を定義できる時代が到来!

執筆者 | Yun Zhao制作:51CTO テクノロジースタック(WeChat ID:blog)深...

ガートナー:世界のAIチップの収益は2023年に530億ドル、2027年には1194億ドルに達する

8月24日、市場調査会社ガートナーの最新予測によると、 AI向けハードウェアの世界販売収益は2023...

人工知能が新薬開発を支援

[[251349]]古代、神農は何百種類もの生薬を試飲しましたが、これは実際には薬を人工的に選別する...

速報 | SmartOneがAIショッピングガイドロボットを発表、マイクロソフトと戦略的提携を強化

6月27日、北京のマイクロソフトビルでSmart One 2018新製品発表会が開催された。同会は「...

人工知能はインターネットなしでも動作できるようになる

エッジコンピューティングの進歩とますます高性能化するチップにより、人工知能(AI)は広域ネットワーク...

さまざまな機械学習アルゴリズムの選択の考え方を説明する記事

序文これは Zhihu に関する質問です: k 近傍法、ベイズ法、決定木、SVM、ロジスティック回帰...

テクノロジーは農作物の栽培プロセスを変えています。何か食べたいときはロボットに頼まなければなりません

Science News for Students によると、食物の栽培は通常、種から始まります。そ...

旅の途中を超えて?文脈学習に基づく画像拡散モデルのトレーニング [Frontiers]

1. 背景知識 - テキスト画像生成の現状まずは背景知識をご紹介します。テキスト画像生成モデルにつ...

AIに対する期待や考え

[[398945]]中国ビジネスネットワーク特別コメンテーター、宋清輝(経済学者)最近、第5回世界知...

...