Soraはどのように機能しますか?

翻訳者 |ブガッティ

レビュー | Chonglou

先週、 OpenAIチームは、物理世界の基本的な側面をシミュレートする新しい機能を実証した大規模なビデオ生成モデルであるSoraを発表しました。私は長い間テキストからビデオへの生成の分野を追ってきましたが、このモデルは品質の飛躍的な向上を表していると思います。

RedditやTwitterでは、このモデルがどのように機能するかについて、型破りな理論( SoraはUnrealというゲームエンジンで実行されているのか?)も含めて多くの人が推測しているのを見ました。この画期的なAI ツールがリリースされたとき、多くの人がその仕組みを理解したように見せかけたり、あるいは、公開されたいくつかのビデオサンプルに基づく微妙なヒントから仕組みを理解できると思い込もうとしたりした。私が見つけた最悪の例は、ジム・ファン博士が「 Soraはデータ駆動型物理エンジンである」と主張する投稿で、 Twitterで約400万回閲覧されています(Sora はまったくデータ駆動型物理エンジンではありません) 。

幸いなことに、OpenAI はモデルのアーキテクチャを説明する研究論文を発表しました。この記事を読めば、実は推測する必要はありません。以下では、 Sora がどのように動作するかを理解できるように、 OpenAI チームが提供するテクノロジーを紹介します。

ソラはなぜすごいのか？

現実世界に内在する複雑さをモデル化し、理解し、シミュレートできる AI を作成することは、人工知能分野の出現以来、非常に困難な課題となっています。静止画像とは異なり、ビデオは本質的に、時間の経過による変化、 3D空間、物理的な相互作用、オブジェクトの連続性などを提示することを伴います。これまでのビデオ生成モデルでは、さまざまなビデオの長さ、解像度、カメラアングルを処理するのが困難でした。さらに重要なことは、これらのシステムには、現実の高精度シミュレーションに必要な物理学、因果関係、およびオブジェクトの永続性に関する本質的な「理解」が欠けていることです。

OpenAIが公開したビデオでは、これらの分野でこれまで見てきたものよりも優れたパフォーマンスを発揮するモデルが紹介されています。率直に言って、これらのビデオは本物のように見えます。たとえば、人の頭が標識を遮った後、その上を通過しても、標識の文字はそのまま残ります。動物たちは「遊んでいる」ときでもリアルに羽ばたきます。風に吹かれた花びらは風とともに揺れるでしょう。ほとんどのビデオモデルは、この課題に対して無力であり、その結果、視聴者が判別しにくいちらつきや揺れのある画像が生成されることがよくありますが、Sora にはこの問題はありません。これはどうやって実現するのでしょうか?

モデルアーキテクチャとトレーニングに関する技術的な詳細

モデルと既存の投稿を見たときに私が最初に気づいたのは、この研究がOpenAIの GPTのような言語モデルに関する以前の研究に基づいているということでした。

ビデオの特性評価

研究者らが導入した重要な革新は、 Sora がトレーニングプロセス中にビデオを表現する方法です。各フレームは、 GPT-4などの大規模言語モデルで単語がトークンに分割される方法と同様に、多数の小さなパッチ( Patch )に分割されます。このパッチベースのアプローチにより、さまざまな長さ、解像度、方向、アスペクト比のビデオを使用してSora をトレーニングできます。ソースビデオの元の形状に関係なく、フレームから抽出されたパッチはまったく同じ方法で処理されます。

図 1. OpenAI の研究論文より:「大まかに言えば、まずビデオを低次元の潜在空間に圧縮し、次にビデオ表現を時空間パッチに分解することで、ビデオをパッチに分割します。」

モデルアーキテクチャ

Sora は、 GPTモデルに密接に関連する Transformer アーキテクチャを使用して、これらのビデオチャンクの長いシーケンスを処理します。 Transformerには時空間自己注意レイヤーが含まれており、テキスト、オーディオ、ビデオなどのシーケンス内の長距離依存関係をモデル化する際に大きなメリットがあることがわかっています。

トレーニング中、 SoraのTransformerモデルは、拡散プロセスの初期段階から一連のビデオチャンクトークンを入力として受け取り、元の「ノイズ除去された」トークンを予測します。何百万ものさまざまなビデオでトレーニングすることで、 Sora は自然なビデオフレームのパターンとセマンティクスをゆっくりと学習します。

図2. OpenAIの研究論文からのノイズ除去プロセス図

テキスト調整

Sora は条件付きでもあり、テキストプロンプトに基づいてビデオを制御的に生成できます。テキストプロンプトは、現在のビデオフレームに対応するパッチとともに、追加のコンテキストとして埋め込まれ、モデルに提供されます。

テキストの説明を実際のビデオコンテンツにうまく結び付けるために、研究者は各トレーニングビデオに、別のキャプションモデルから生成された非常に説明的なキャプションを使用しました。このテクノロジーにより、 Sora はテキストの指示にさらに忠実に従うことができるようになります。

推論プロセス

推論中、Sora は純粋なノイズパッチから開始し、一貫性のある滑らかなビデオが生成されるまで、50 を超える拡散ステップで繰り返しノイズ除去を行います。さまざまなテキストプロンプトを提供することで、Sora は字幕と適切に一致するさまざまなビデオを生成できます。

ビデオのパッチベースの表現により、拡散プロセスを開始する前にパッチを目的の形状に配置するだけで、Sora はテスト時にあらゆる解像度、期間、方向を処理できます。

機能と制限

OpenAI チームは、トレーニングデータを数百万のビデオクリップに拡大し、膨大な計算リソースを使用することで、非常に興味深い新たな動作を発見しました。

Sora はテキストからビデオを生成するだけでなく、入力画像や他のビデオからビデオを生成することもできます。
ソラは、キャラクターやオブジェクトがリアルに連続的に動いており、シーンを3D で「理解」しているように見えます。これは純粋にデータのサイズによるもので、明示的な3D モデリングやグラフィックコードは必要ありません。
このモデルはオブジェクトの持続性を示し、エンティティやオブジェクトが一時的にフレームから外れたり、遮蔽されたりした場合でも、多くの場合、それらを追跡します。
Sora は、デジタル画家のキャンバス上の筆遣いが時間の経過とともに正確に保存されるなど、いくつかの基本的な現実世界のインタラクションをシミュレートする能力を実証しました。
また、Minecraft のような複雑な仮想世界やゲームを説得力を持って生成することもできます。 Sora は、生成された環境内で移動するエージェントを制御しながらシーンをレンダリングできます。
追加の計算能力とデータにより、ビデオ品質、一貫性、キューのコンプライアンスが大幅に向上し、スケールによるさらなるメリットが実証されました。

しかし、ソラにはまだ明らかな欠陥と限界があります。

現実世界のより複雑な物理的な相互作用、ダイナミクス、因果関係を正確にモデル化することは、多くの場合困難です。単純な物理学とオブジェクトのプロパティは、依然として難しいままです。たとえば、グラスが倒れて液体がこぼれると、グラスがテーブルの上に溶け、液体がグラスの側面を伝って流れ落ちますが、グラスは粉々に砕けません。
モデルは、特に混雑したシーンや雑然としたシーンでは、予期しないオブジェクトやエンティティを自発的に生成することがよくあります。
ソラは簡単に左右を混同したり、多くの動作が行われているときに、一定期間にわたるイベントやアクティビティの正確な順序が簡単に乱れたりすることがあります。
複数のキャラクターと環境間の自然な相互作用をリアルにシミュレートすることは依然として困難です。たとえば、トレッドミル上で逆方向に歩いている人のビデオを生成できます。

今後の開発の方向性

これらの根深い欠陥にもかかわらず、研究者がビデオ生成モデルのスケールアップを続けるにつれて、 Sora は将来の可能性を予見させます。十分なデータと計算能力があれば、ビデオトランスフォーマーは現実世界の物理学、因果関係、物体の永続性についてより深い理解を深め始めるかもしれません。言語理解機能と組み合わせることで、現実世界のビデオベースのシミュレーションを通じてAIシステムをトレーニングするための新しいアイデアが生まれることが期待されます。

ソラはこの目標に向けて最初の一歩を踏み出しました。多くの弱点を克服するにはさらなる作業が必要ですが、それが示す新たな能力は、この研究方向の将来性を浮き彫りにしています。大規模かつ多様なビデオデータセットを使用してトレーニングされた巨大トランスフォーマーは、最終的には、私たちの物理的環境に内在する複雑さ、豊かさ、深さとインテリジェントに対話し、理解できる AI システムを生み出す可能性があります。

結論は

したがって、根拠のない主張に反して、Sora はゲームエンジンや「データ駆動型物理エンジン」上で実行されるのではなく、 GPT-4 がテキストトークン上で実行されるのと同じように、ビデオ「タイル」上で実行されるトランスフォーマーアーキテクチャ上で実行されます。理解の深さ、オブジェクトの持続性、自然なダイナミクスを示すビデオの作成に優れています。

このモデルの主な革新点は、言語モデルの単語トークンと同様に、ビデオフレームをパッチのシーケンスとして処理し、さまざまなビデオの側面を効果的に管理できるようにすることです。このアプローチとテキスト条件付き生成を組み合わせることで、Sora はテキストの手がかりに基づいて、文脈的に関連性があり視覚的に一貫性のあるビデオを生成できます。