この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 島の大ヒット作を見てみましょう。 これは写真家の作品ではなく、GANcraft の作品です。 元画像は「Minecraft」のモザイク品質のシーンです。 今、「私の世界」は本当に私の世界になりました! NVIDIA とコーネル大学のコラボレーションによる GANcraft は、大規模な 3D ブロック世界をリアルな画像に生成できる、教師なし 3D ニューラル レンダリング フレームワークです。 かつてない現実感それはどれくらい現実的ですか?他のモデルと比較すると。 以下は、MUNIT、GauGAN で使用される SPADE、wc-vid2vid、および NSVF-W (NSVF+NeRF-W) を使用して 2 つのシナリオで生成された効果です。 GANcraftの効果を見てみましょう: (色と画質は圧縮されています) 比較すると次のことがわかります。 MUNIT や SPADEなどの Im2im (画像間変換) 方式では、モデルに 3D ジオメトリの知識がなく、各フレームが独立して生成されるため、視点の一貫性を維持できません。 wc-vid2vid はビュー一貫性のあるビデオを生成しますが、トレーニング テスト領域でのブロック状のジオメトリとエラーの蓄積により、時間の経過とともに画像の品質が急速に低下します。 NSVF-Wもビューと一致する出力を生成しますが、色がくすんで見え、詳細が欠けています。 GANcraftによって生成された画像は、高品質でありながらビューの一貫性を維持します。 これはどうやって行うのですか? 原則の概要GANcraft のニューラル レンダリングの使用によりビューの一貫性が確保され、革新的なモデル アーキテクチャとトレーニング スキームによりこれまでにないリアリズムが実現されます。 具体的には、研究者らは、Hybird ボクセル条件付きニューラル レンダリング手法を使用して、3D ボリューム レンダラーと 2D 画像空間レンダラーを組み合わせました。 まず、ボクセル(つまり、ボリューム要素)で囲まれた神経放射フィールドが定義され、学習可能な特徴ベクトルがブロックの各コーナーに割り当てられます。 三線補間を使用して、ボクセル内の任意の場所に位置コードが定義され、世界を連続的なボリューム関数として表現します。また、各ブロックには、土、草、水などのセマンティック ラベルが割り当てられます。 次に、MLP を使用して放射輝度フィールドが暗黙的に定義されます。MLP は、位置コード、セマンティック ラベル、共有スタイル コードを入力として受け取り、ポイント フィーチャ (放射輝度に類似) とそのボリューム密度を生成します。 最後に、カメラのパラメータが与えられ、放射フィールドをレンダリングすることによって 2D 特徴マップが取得され、CNN を使用して画像に変換されます。 ボクセル条件付きニューラルレンダリングモデルを構築することは可能ですが、グラウンドトゥルースとして使用できる画像はありません。このため、研究者は敵対的トレーニング方法を採用しました。 しかし、Minecraft は現実世界とは異なり、シーンが完全に雪や水に覆われていたり、1 つのエリアに複数のバイオームが出現したりするなど、ブロックのラベル分布がまったく異なることがよくあります。 インターネットの写真を使った敵対的トレーニングでは、ランダムにサンプリングすると非現実的な結果が生成されます。 そのため、研究者はトレーニングのために疑似グラウンドトゥルースを生成します。 事前トレーニング済みの SPADE モデルを使用して、2D セマンティック セグメンテーション マスクを通じて、同じセマンティクスを持つ疑似グラウンド トゥルース画像が取得されます。 これにより、ラベルと画像の割り当て間の不一致が軽減されるだけでなく、損失が強くなり、より高速で安定したトレーニングが可能になります。生成パフォーマンスが大幅に向上しました: さらに、GANcraft を使用すると、ユーザーはシーンのセマンティクスと出力スタイルを制御できます。 紹介ページには次のように書かれています: 「Minecraft プレイヤー全員が 3D アーティストに変身します!」 さらに、複雑な風景シーンの 3D モデリング プロセスが簡素化され、長年の専門知識が不要になります。 GANcraft はまもなくオープンソースになります。興味のある方はリンクをクリックして詳細をご覧ください。 参考リンク: |
<<: Google、Amazon、Microsoft – 人工知能の競争をリードするのは誰か?
>>: グラフアルゴリズムシリーズ: 無向グラフのデータ構造
この記事では、AI フレームワークの高レベルなアーキテクチャを詳しく説明し、その内部コンポーネントと...
VB.NET を学習する場合、中国語の情報が非常に少なく、大多数のプログラマーのニーズを満たすのが難...
Appleの春のカンファレンスまで残り4日となりました。カラフルなAR招待状が届きました。これはク...
[[373550]]人工知能は、都市をよりスマートで効率的な仕事と生活の場へと変革する道を開きます。...
AIは心臓病の予測やアルツハイマー病の検出など、医療分野で幅広い応用が期待されています。新たな研究に...
2022年も、疫病やサプライチェーン危機などの悪影響は続くとみられ、AIに対する消費者の信頼獲得や気...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
YOLOv8 が 2023 年 1 月に正式にリリースされてから 1 年以上経ち、ついに YOLOv...
この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...
生成的敵対的ネットワーク (GAN) を使用した画像超解像 (SR) は、リアルな詳細を復元する上で...
顔認識技術の賛否は議論の余地がある。多くの利害関係者は利点を強調したが、批評家は欠点も指摘した。顔認...