Leifeng.com 注: 上の画像は、Microsoft モデルによって生成された 3D ソファ、椅子、バスタブの画像です。 この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。 Facebook や Nvidia などの企業の AI 研究室や、Threedy.AI のようなスタートアップ企業を含め、2D 画像を 3D 形式に変換する試みは数多く行われてきました。最近、マイクロソフトの研究チームも、構造化されていない 2D 画像に基づいて 3D 形状画像を生成する能力を実証するプレプリント論文を発表しました。 通常、このようなフレームワークをトレーニングするには、ラスタライズによる差分ステップ レンダリングを実行する必要があるため、この分野でのこれまでの取り組みでは、カスタム レンダリング モデルの開発に重点が置かれてきました。しかし、このようなモデルで処理された画像はリアルでも自然でもなく、ゲームやグラフィック業界向けの産業用レンダリングの生成には適していません。 マイクロソフトの研究者たちは今回、新たな躍進を遂げた。彼らは論文の中で、この分野で初めて使用される「スケーラブルな」トレーニング手法を使用するフレームワークを詳しく説明したのだ。研究者らは、2D 画像でトレーニングすると、フレームワークは既存のモデルよりも一貫して優れた 3D 形状を生成できると述べており、これは 3D モデルの作成経験が不足しているビデオ ゲーム開発者、e コマース企業、アニメーション企業にとっては朗報です。 具体的には、研究者らは、ディスプレイデータから画像を生成できる、完全に機能する産業用レンダラーを活用しようとしました。これを実現するために、研究者らは 3D 形状の生成モデルをトレーニングし、形状をレンダリングして 2D データセットの分布に一致する画像を生成するようにしました。ジェネレーター モデルは、ランダムな入力ベクトル (データセットの特徴を表す値) を受け取り、3D オブジェクトの連続ボクセル表現 (3D 空間のグリッド上の値) を生成します。次に、ボクセルは微分不可能なレンダリング プロセスに送られ、既存のレンダラーを使用してレンダリングする前に、離散値にしきい値が設定されます。 つまり、これは 3D 形状生成モデルによって生成された連続ボクセル グリッドを直接レンダリングする新しいプロキシ ニューラル レンダラーです。研究者らが説明しているように、3D メッシュ入力が与えられた場合、市販のレンダラーのレンダリング出力と一致するようにトレーニングする必要があります。 生成的敵対ネットワーク (GAN) は 2D 画像データの生成において優れた結果を示しており、ゲームなどの多くの視覚アプリケーションでは、画像だけでなく 3D モデルを入力として必要とします。ただし、既存の GAN モデルを 3D に直接拡張するには、3D トレーニング データを取得する必要があります。 Leifeng.com 注: 上の画像は、Microsoft モデルによって生成された 3D キノコ画像です。 実験中、研究チームは上記のジェネレーターに3D畳み込みGANアーキテクチャを採用しました(GANは2部構成のAIモデルで、分散サンプリングを使用してランダムノイズから合成例を生成し、これらの例をトレーニングデータセット内の実際の例と一緒に識別器に入力して、2つを区別しようとするジェネレーターが含まれます)。 3D モデルと実際のデータセットに基づいて生成されたデータセットは、さまざまなオブジェクト カテゴリからの画像を合成し、トレーニング プロセス全体を通じてさまざまな角度からレンダリングできます。 研究者らはまた、このフレームワークは画像から照明と陰影の情報も抽出し、各トレーニングサンプルからより意味のあるデータを抽出し、そのデータに基づいてより良い結果を生み出すことができると述べている。自然画像のデータセットでトレーニングした後、フレームワークは現実的なサンプルを生成できます。さらに、このフレームワークは、表面間の露出の違いを利用して凹面物体の内部構造を検出することができ、凹部や中空空間を正確に捉えることができます。 色、材質、照明などの情報をシステムに組み込むことで、将来的にはこの情報をより「通常の」現実世界のデータセットと一緒に使用できるようになります。 |
>>: 「ブラックスワン」の翼の下で:情報戦場におけるAIの光と影
図1: 負荷分散アルゴリズムの改善が必要[[91541]]図2: 開発者対テスター、非常に奇妙な図[...
2017年、『エコノミスト』誌は、石油ではなくデータが世界で最も価値のある資源になったと宣言し、この...
[[208842]]最近、カリフォルニア州クララで開催された Health 2.0 カンファレンス...
マスクは嫉妬しているのか?彼のニューラリンクは技術的にははるかに進んでおり、豚やサルを使った実験では...
米国のピュー・リサーチ・センターは2008年に、主に以下のような2020年のライフスタイルを予測しま...
2018 年は人工知能と機械学習が急速に発展する年となるでしょう。一部の専門家は、Python は...
[[377047]] [51CTO.com からのオリジナル記事] データマイニングと機械学習は、今...
エンドツーエンドの自動運転は、システムの複雑性が高まるなどのモジュール式システムに伴う欠点を回避でき...
人工知能(AI)技術は、将来の研究論文に対して、説得力があり、面白く、科学的な見出しを生成できること...
New Atlas によると、ETH チューリッヒの ANYmal ロボットは、4 本足で歩くだけ...
[[241846]]タイトル画像はVisual Chinaより過去2年間で、子供向けのロボット教育...
翻訳者|朱 仙中レビュー | Chonglou概要:このブログでは、検索拡張生成と呼ばれるプロンプト...