GPT-4+物理エンジンは拡散モデルをサポートし、現実的で一貫性のある合理的なビデオを生成します。

GPT-4+物理エンジンは拡散モデルをサポートし、現実的で一貫性のある合理的なビデオを生成します。

拡散モデルの出現により、テキスト生成ビデオ技術の開発が促進されましたが、このような方法は通常、計算コストが高く、オブジェクトの動きの一貫したビデオを作成することが困難な場合がよくあります。

これらの問題を解決するために、中国科学院深圳先進技術研究所、中国科学院大学、VIVO AI ラボの研究者が共同で、トレーニングなしでテキストからビデオを生成する新しいフレームワーク、GPT4Motion を提案しました。 GPT4Motion は、GPT などの大規模言語モデルの計画機能、Blender ソフトウェアが提供する物理シミュレーション機能、拡散モデルのテクスチャ機能を組み合わせ、ビデオ合成の品質を大幅に向上させることを目指しています。


  • プロジェクトリンク: https://gpt4motion.github.io/
  • 論文リンク: https://arxiv.org/pdf/2311.12631.pdf
  • コードリンク: https://github.com/jiaxilv/GPT4Motion

具体的には、GPT4Motion は GPT-4 を使用して、ユーザーが入力したテキスト プロンプトに基づいて Blender スクリプトを生成し、Blender の組み込み物理エンジンを使用して基本的なシーン コンポーネントを作成し、それらをフレーム間の連続モーションにカプセル化します。次に、これらのコンポーネントを拡散モデルに入力して、テキスト プロンプトに合わせたビデオを生成します。

実験結果によると、GPT4Motion は、モーションの一貫性とエンティティの一貫性を維持しながら、高品質のビデオを効率的に生成できます。 GPT4Motion は物理エンジンを使用しており、生成されるビデオがよりリアルになることは注目に値します。 GPT4Motion は、テキストからのビデオ生成に関する新たな洞察を提供します。

まずはGPT4Motionが生成した効果を見てみましょう。例えば、「そよ風になびく白いTシャツ」、「風になびく白いTシャツ」、「強風になびく白いTシャツ」というテキストプロンプトを入力すると、GPT4Motionが生成した動画内の白いTシャツのなびく振幅は風の強さによって異なります。

液体の流れに関しては、GPT4Motion によって生成されたビデオでもよくわかります。

バスケットボールは回転して空中から落ちます。

方法の紹介

この研究の目的は、いくつかの基本的な物理的な動きのシーンに対するユーザーのプロンプトに基づいて、物理的に正しいビデオを生成することです。物理的特性は通常、物体の材質に関係します。研究者たちは、日常生活でよく見られる 3 種類の物体と材料のシミュレーションに焦点を当てました。1) 力がかかっても形状を維持できる硬い物体、2) 柔らかく浮きやすい布、3) 連続的で変形可能な動きを示す液体です。

さらに、研究者らは、衝突(物体間の直接的な衝突)、風の影響(空気の流れによって引き起こされる動き)、流れ(一方向への連続的な動き)など、これらの材料のいくつかの典型的な運動モードに特別な注意を払いました。これらの物理シナリオをシミュレートするには、通常、古典力学、流体力学、およびその他の物理学の知識が必要です。テキストからビデオを生成することに重点を置いた現在の拡散モデルでは、トレーニングを通じてこの複雑な物理的知識を獲得することが困難であり、そのため物理的特性に準拠したビデオを生成することができません。

GPT4Motion の利点は、生成されたビデオがユーザーが入力したプロンプトと一致するだけでなく、物理的に正しいことも保証されることです。 GPT-4 のセマンティック理解およびコード生成機能により、ユーザープロンプトを Blender の Python スクリプトに変換し、Blender の組み込み物理エンジンを駆動して対応する物理シーンをシミュレートできます。さらに、本研究では、ControlNet も採用し、Blender シミュレーションの動的な結果を入力として取り入れ、拡散モデルをガイドしてフレームごとにビデオを生成しました。

GPT-4を介してシミュレーションを完了するためにBlenderをトリガーする

研究者らは、GPT-4 は Blender の Python API をある程度理解しているものの、ユーザーのプロンプトに基づいて Blender の Python スクリプトを生成する能力がまだ欠けていることを観察しました。一方で、GPT-4 に単純な 3D モデル (バスケットボールなど) を Blender で直接作成するように依頼するのは、困難な作業のように思えます。一方、Blender の Python API はリソースが少なく、API バージョンの更新も早いため、GPT-4 は特定の機能を誤用したり、バージョンの違いによってミスを起こしたりすることが簡単に起こります。これらの問題を解決するために、本研究では以下の解決策を提案しました。

  1. 外部3Dモデルの使用
  2. Blender関数のラッピング
  3. ユーザープロンプトを物理的なプロパティに変換する

図3は、この研究でGPT-4用に設計された一般的なプロンプトテンプレートを示しています。ラップされた Blender 関数、外部ツール、ユーザー コマンドが含まれます。研究者らはテンプレート内の仮想世界のサイズの基準を定義し、カメラの位置と視野角に関する情報を提供しました。この情報は、GPT-4 が 3 次元空間のレイアウトをより適切に理解するのに役立ちます。次に、ユーザーによるプロンプト入力に基づいて対応する指示が生成され、GPT-4 が対応する Blender Python スクリプトを生成するように指示します。最後に、このスクリプトを使用して、Blender はオブジェクトのエッジと深度をレンダリングし、画像シーケンスとして出力します。

物理的に正確なビデオを生成する

この研究の目的は、ユーザーのプロンプトと Blender によって提供される対応する物理的な動作条件に基づいて、一貫したテキストとビデオ コンテンツ、およびリアルな視覚効果を備えたビデオを生成することです。この研究では、拡散モデルのアップグレード版である拡散モデル XL (SDXL) を使用して生成タスクを完了し、SDXL に次の変更を加えます。

  1. 物理的な動作の制約
  2. 時間一貫性制約

実験結果

物理的特性の制御

バスケットボールの落下と衝突。図 4 は、3 つのプロンプトに基づいて GPT4Motion によって生成されたバスケットボール ビデオを示しています。図 4 (左) では、バスケットボールは回転しながら非常にリアルなテクスチャを維持し、地面に衝突した後の跳ね返り動作を正確に再現しています。図 4 (中央) は、この方法によりバスケットボールの数を正確に制御し、複数のバスケットボールが着地したときに発生する衝突やバウンドを効果的に生成できることを示しています。驚くべきことに、図 4 (右) に示すように、ユーザーがバスケットボールをカメラに向かって投げるように指示すると、GPT-4 は生成されたスクリプト内でバスケットボールの落下時間に基づいて必要な初期速度を計算し、リアルな視覚効果を実現します。これは、GPT4Motion を GPT-4 の物理的知識と組み合わせて、生成されたビデオ コンテンツを制御できることを示しています。

風になびく布。図 5 と 6 は、風の影響を受けて布が動く様子を生成する GPT4Motion の機能を示しています。 GPT4Motion は、シミュレーションに既存の物理エンジンを使用して、さまざまな風の力の下で波紋や波を生成できます。図 5 は、はためく旗の生成結果を示しています。風速によって、旗は複雑な波紋や波模様を描きます。図 6 は、さまざまな風の力を受けた不規則な布地の物体 (T シャツ) の動きを示しています。生地の弾力性や重さなどの物理的特性の影響で、Tシャツは揺れたりねじれたりして、明らかなシワが現れました。

マグカップに水を注ぎます。図 7 は、異なる粘度の水をマグカップに注ぐ 3 つのビデオを示しています。粘度が低い場合、流れる水はカップ内の水と衝突して合流し、表面に複雑な乱流を形成します。粘度が増加すると、水の流れが遅くなり、液体がくっつき始めます。

ベースライン手法との比較

図 1 は、GPT4Motion と他のベースライン メソッドを直感的に比較したものです。明らかに、ベースラインの結果はユーザーのプロンプトと一致しません。 DirecT2V と Text2Video-Zero はテクスチャの忠実度とモーションの一貫性に欠陥があり、AnimateDiff と ModelScope はビデオの滑らかさを改善しますが、テクスチャの一貫性とモーションの忠実度にはまだ改善の余地があります。これらの方法と比較すると、GPT4Motion は、バスケットボールが床に衝突した後に落下して跳ね返るときに滑らかなテクスチャの変化を生成できるため、よりリアルに見えます。

図 8 (最初の行) に示すように、AnimateDiff と Text2Video-Zero によって生成されたビデオでは旗にアーティファクトや歪みが見られますが、ModelScope と DirecT2V では風になびく旗のグラデーションをスムーズに生成できません。しかし、図5の中央に示すように、GPT4Motionで生成されたビデオでは、重力と風の影響を受けて旗のしわや波紋が連続的に変化する様子を見ることができます。

図 8 (行 2) に示すように、すべてのベースラインの結果はユーザープロンプトと一致していません。 AnimateDiff および ModelScope ビデオは水の流れの変化を反映しますが、カップに注がれる水の物理的な効果を捉えることはできません。 Text2VideoZero と DirecT2V によって生成されたビデオは、常に揺れるカップを作成します。これに対し、図7(左)に示すように、GPT4Motionで生成された動画は、水がマグカップに衝突したときの揺れを正確に表現しており、よりリアルな効果が得られています。

興味のある読者は、原著論文を読んで研究内容の詳細を知ることができます。

<<: 

>>: 

ブログ    
ブログ    
ブログ    

推薦する

...

世界シミュレーターはAGIの最終成果、12の状況予測です!チーフエキスパートによる1万語の記事がソラのマイルストーンを専門的に解釈

私はここ数日、Sora の技術レポートと Sora のさまざまな技術分析を読んできました。基本的な視...

IBM WatsonX: AIを企業の生産性の中核に

「象は踊れるの?」もちろん踊れますよ!かつての人々の考え方では、伝統的な大企業は、組織の肥大化や閉鎖...

生画像の新しい「マルチモーダル」AIテキストレンダリングはMidjourney + DALL·E 3に勝る!Karpathyが5億元の資金調達に投資

「10人のチームを持ち、年間売上高が1億ドルを超えるスタートアップ」を輩出する道として、文芸グラフィ...

デザイナーに必須の AI ツール 11 選

翻訳者 |ブガッティレビュー | Chonglou急速に進化する今日のデザイン環境において、人工知能...

強化学習 AI は 1 対 5 の戦いに役立ちますか? MITの新研究:AIは人間にとって最高のチームメイトではない

[[433351]]強化学習AIは囲碁、スタークラフト、王者栄耀などのゲームで絶対的な優位性を持って...

AIがハイパフォーマンスコンピューティングから学べる7つの教訓

効果的な IT 組織は、ハイパフォーマンス コンピューティング (HPC) から教訓を得て、システム...

ハッシュアルゴリズムに基づくMySQLテーブルパーティション

以下に紹介する Mysql テーブルのパーティショニング プロセスは、ハッシュ アルゴリズムに基づい...

製造、小売、医療の事例から:エッジコンピューティングと人工知能がどのように収益向上に役立つか

[[403666]]ストラトキャスターとテレキャスターのギターを製造するカリフォルニア州コロナに本社...

図解機械学習: 誰でも理解できるアルゴリズムの原理

機械学習の話題は誰もが話題にするほど普及していますが、それを完全に理解している人はほとんどいません。...

アリババのキャンパス採用の給与は魅力的すぎる、アルゴリズム職の最高給与は72万!最初のオファーを選択するにはどうすればいいですか?

[[248005]]インターネット業界は将来性が有望で、お金を稼げるので就職するには良い場所だと多...

AIも失業するだろう。スウェーデンの銀行はAIを解雇した

将来自分の仕事が人工知能に置き換えられるのではないかと心配していたら、このニュースはあなたにいくらか...

AIと機械学習の統合アーキテクチャ:インテリジェントな意思決定を可能にする

人工知能 (AI) と機械学習の台頭により、あらゆる業界に大きな変化が起きています。データ量が増加し...

SFUとアリババは、複雑さを線形に減らし、パフォーマンスを向上させる一般的なQuadTree Attentionを提案した。

Transformer モデルは、長距離の依存関係とグローバル情報をキャプチャできます。コンピュー...