インテルラボ、テキストプロンプトに基づいて360度パノラマ画像を生成する新しいAI拡散モデルをリリース

インテルラボ、テキストプロンプトに基づいて360度パノラマ画像を生成する新しいAI拡散モデルをリリース

6月21日、Intel ResearchはBlockade Labsと提携してLDM3D(Latent Diffusion Model for 3D)モデルをリリースしたと発表しました。この新しい拡散モデルは、生成AIを使用して3Dビジュアルコンテンツを作成します。

報道によると、 LDM3D は拡散プロセスを使用して深度マップを生成し、リアルで没入感のある 360 度パノラマを生成する業界をリードするモデルです。 LDM3D は、コンテンツ作成、メタバース アプリケーション、デジタル エクスペリエンスに革命をもたらし、エンターテイメント、ゲーム、建築、デザインなど多くの業界を変革する可能性があります。

インテルは、LDM3D は 10,000 個のサンプルを含む LAION-400M データセットのサブセットでトレーニングされたと述べた。 LAION-400M は、4 億を超える画像とテキストのペアを含む大規模な画像とテキストのデータセットです。研究チームは、トレーニング コーパスに注釈を付ける際に、Intel Labs が以前に開発した高密度深度推定モデルである DPT-Large を使用しました。このモデルは、画像内の各ピクセルに対して非常に正確な相対深度を提供します。 LAION-400M データセットは、研究者やその他の関心のあるコミュニティがより大規模なモデルトレーニングをテストできるように、研究目的で作成されました。

LDM3Dモデルは、Intel XeonプロセッサとIntelを搭載したIntel AIスーパーコンピュータでトレーニングされました。 ハバナガウディAIアクセラレータドライバー。最終的なモデルとパイプラインは、RGB 画像と深度マップを統合して、没入感のある体験を実現する 360 度のパノラマを生成します。

<<:  テスラがテスラAIのTwitterアカウントを開設、Dojoスーパーコンピューターの生産を来月開始すると発表

>>:  エッジ AI がインダストリー 4.0 の成果を推進する方法

ブログ    
ブログ    

推薦する

...

C# のデータ構造とアルゴリズムにおけるツリーの役割を紹介します

C# データ構造とアルゴリズムツリーまず、Windows でコマンド ラインに「tree」と入力しま...

AIによる顔の変形の背後にある技術的な戦い

[[275567]]週末に集中的に流行した後、顔を変えるソフトウェアZAOの人気はようやく落ち着きを...

テンセントクラウドが7つの新製品をリリース、AIアプリケーションは洗練へ向かう

12月11日、テンセントクラウドは北京で新しいビッグデータAI製品発表会を開催した。テンセントクラウ...

...

インドネシアのゴミ分別:人工知能が役に立つ

上海市は7月に「史上最も厳しいゴミ分別措置」を実施し始めて以来、ゴミ分別は多くの人々の日常生活におけ...

...

人工知能は厳しい規制の時代に入る

ChatGPTに代表されるLLM(Large Language Model)に基づく生成AIアプリケ...

ロボットになることでのみロボットを倒すことができる

人類はロボットの時代に突入している。ロボット工学の専門家や哲学者の中には、将来、高度に知能化されたロ...

ChatGPTでマルウェアを分析する方法

翻訳者 |陳俊レビュー | Chonglouデジタル時代に入って以来、マルウェアはコンピュータ アプ...

視覚と言語の多粒度の調整を学習しますか? Byte は、新しいマルチモーダル事前トレーニング方法 X-VLM を提案しました。コードがオープンソース化されました。

前面に書かれた視覚言語の事前トレーニングにより、多くの視覚言語タスクのパフォーマンスが向上します。し...

安全で制御可能、かつ法的に準拠した人工知能は金融分野で「原則化」されている

現在、国内の新興デジタルインフラの進歩と、5G、クラウドコンピューティング、ビッグデータなどのモジュ...

...

LeCunは再び自己回帰LLMを批判:2つの論文で証明されているように、GPT-4の推論能力は非常に限られている

「自己回帰型 LLM が人間レベルの AI に近い、あるいは人間レベルのパフォーマンスに達するにはス...