2D画像が3Dになる、マイクロソフトの新しいAIフレームワークはゲーム業界に恩恵をもたらすかもしれない

2D画像が3Dになる、マイクロソフトの新しいAIフレームワークはゲーム業界に恩恵をもたらすかもしれない

Leifeng.com 注: 上の画像は、Microsoft モデルによって生成された 3D ソファ、椅子、バスタブの画像です。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

Facebook や Nvidia などの企業の AI 研究室や、Threedy.AI のようなスタートアップ企業を含め、2D 画像を 3D 形式に変換する試みは数多く行われてきました。最近、マイクロソフトの研究チームも、構造化されていない 2D 画像に基づいて 3D 形状画像を生成する能力を実証するプレプリント論文を発表しました。

通常、このようなフレームワークをトレーニングするには、ラスタライズによる差分ステップ レンダリングを実行する必要があるため、この分野でのこれまでの取り組みでは、カスタム レンダリング モデルの開発に重点が置かれてきました。しかし、このようなモデルで処理された画像はリアルでも自然でもなく、ゲームやグラフィック業界向けの産業用レンダリングの生成には適していません。

マイクロソフトの研究者たちは今回、新たな躍進を遂げた。彼らは論文の中で、この分野で初めて使用される「スケーラブルな」トレーニング手法を使用するフレームワークを詳しく説明したのだ。研究者らは、2D 画像でトレーニングすると、フレームワークは既存のモデルよりも一貫して優れた 3D 形状を生成できると述べており、これは 3D モデルの作成経験が不足しているビデオ ゲーム開発者、e コマース企業、アニメーション企業にとっては朗報です。

具体的には、研究者らは、ディスプレイデータから画像を生成できる、完全に機能する産業用レンダラーを活用しようとしました。これを実現するために、研究者らは 3D 形状の生成モデルをトレーニングし、形状をレンダリングして 2D データセットの分布に一致する画像を生成するようにしました。ジェネレーター モデルは、ランダムな入力ベクトル (データセットの特徴を表す値) を受け取り、3D オブジェクトの連続ボクセル表現 (3D 空間のグリッド上の値) を生成します。次に、ボクセルは微分不可能なレンダリング プロセスに送られ、既存のレンダラーを使用してレンダリングする前に、離散値にしきい値が設定されます。

つまり、これは 3D 形状生成モデルによって生成された連続ボクセル グリッドを直接レンダリングする新しいプロキシ ニューラル レンダラーです。研究者らが説明しているように、3D メッシュ入力が与えられた場合、市販のレンダラーのレンダリング出力と一致するようにトレーニングする必要があります。

生成的敵対ネットワーク (GAN) は 2D 画像データの生成において優れた結果を示しており、ゲームなどの多くの視覚アプリケーションでは、画像だけでなく 3D モデルを入力として必要とします。ただし、既存の GAN モデルを 3D に直接拡張するには、3D トレーニング データを取得する必要があります。

Leifeng.com 注: 上の画像は、Microsoft モデルによって生成された 3D キノコ画像です。

実験中、研究チームは上記のジェネレーターに3D畳み込みGANアーキテクチャを採用しました(GANは2部構成のAIモデルで、分散サンプリングを使用してランダムノイズから合成例を生成し、これらの例をトレーニングデータセット内の実際の例と一緒に識別器に入力して、2つを区別しようとするジェネレーターが含まれます)。 3D モデルと実際のデータセットに基づいて生成されたデータセットは、さまざまなオブジェクト カテゴリからの画像を合成し、トレーニング プロセス全体を通じてさまざまな角度からレンダリングできます。

研究者らはまた、このフレームワークは画像から照明と陰影の情報も抽出し、各トレーニングサンプルからより意味のあるデータを抽出し、そのデータに基づいてより良い結果を生み出すことができると述べている。自然画像のデータセットでトレーニングした後、フレームワークは現実的なサンプルを生成できます。さらに、このフレームワークは、表面間の露出の違いを利用して凹面物体の内部構造を検出することができ、凹部や中空空間を正確に捉えることができます。

色、材質、照明などの情報をシステムに組み込むことで、将来的にはこの情報をより「通常の」現実世界のデータセットと一緒に使用できるようになります。

<<:  5分でトップ10の機械学習アルゴリズムを学ぶ

>>:  「ブラックスワン」の翼の下で:情報戦場におけるAIの光と影

ブログ    
ブログ    

推薦する

14,000元相当のコースノートはオープンソースで、fast.aiの創設者が新しい本のソースコードを公開

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

CLRNet: 自動運転における車線検出のための階層的改良ネットワーク アルゴリズム

車線は高レベルのセマンティクスを備えた交通標識であり、視覚ナビゲーション システムでは特に重要です。...

Google 研究者: AI が優秀すぎて「ラインを落とした」

数日前、人工知能の分野でほとんどブラックユーモアとも言えるニュースが発表された。Google のエン...

...

一般的な負荷分散アルゴリズムをいくつ知っていますか?

[[275226]]コールドスタンバイとホットスタンバイコールドスタンバイとは、通常は稼働していな...

...

...

IBMは今後5年間で全人類に大きな影響を与える5つの主要な技術革新を発表

海外メディアの報道によると、IBMは3月19日に「Five-for-Five」レポートを発表し、世界...

C# の敏感な単語フィルタリング アルゴリズムの実装

この記事はWeChatの公開アカウント「UP Technology Control」から転載したもの...

機械学習が近い将来教育を変える5つの方法

テクノロジーは私たちの生活、仕事、遊び方を変えており、教育も例外ではありません。機械学習は他の分野を...

また一人の科学者が学界に復帰、AI産業の発展は冷え込みつつあるのか?

最近、一部メディアは、アント・ファイナンシャルの元副社長兼主任データサイエンティストである斉元氏が復...

ハッカーはパニックに陥っています!サイバーセキュリティにおける機械学習の包括的な説明

[51CTO.com からのオリジナル記事] 現在、インターネット上には機械学習 (ML)、人工知能...

DeepMind、ロボットの物体積み重ね能力を向上させるための新たなベンチマークを提案

ほとんどの人にとって、あるオブジェクトを別のオブジェクトの上に重ねることは簡単な作業です。しかし、最...

詳細なチュートリアル: Web スクレイピングにプロキシ サーバーを使用する方法

ワールドワイドウェブはデータの宝庫です。ビッグデータの容易な利用可能性、データ分析ソフトウェアの急速...

生成AIスタートアップにとっての大きな問題は、資金不足ではなくトレーニングデータの不足だ

6月16日、生成型人工知能のスタートアップ企業数社が数十億ドルの資金を調達したが、適切なデータを入手...