Soraはどのように機能しますか?

Soraはどのように機能しますか?

翻訳者 |ブガッティ

レビュー | Chonglou

先週、 OpenAIチームは、物理世界の基本的な側面をシミュレートする新しい機能を実証した大規模なビデオ生成モデルであるSoraを発表しました私は長いテキストからビデオへの生成の分野を追ってきましたが、このモデルは品質の飛躍的な向上を表していると思います

RedditTwitterでは、このモデルがどのように機能するについて型破りな理論( SoraUnrealというゲーム エンジンで実行されているのか?)も含めて多くの人が推測しているのをましたこの画期的なAI ツールがリリースされたとき、多くの人がその仕組みを理解したように見せかけたり、あるいは、公開されたいくつかのビデオサンプルに基づく微妙なヒントから仕組みを理解できると思い込もうとしたりした。私が見つけた最悪の例ジム・ファン博士が Soraはデータ駆動型物理エンジンであると主張する投稿で Twitter400閲覧されています(Sora はまったくデータ駆動型物理エンジンではありません)

幸いなことに、OpenAI はモデルのアーキテクチャを説明する研究論文を発表しました。この記事を読めば、実は推測する必要はありません。以下では、 Sora がどのように動作するかを理解できるように、 OpenAI チームが提供するテクノロジーを紹介します

ソラはなぜすごいのか?

現実世界に内在する複雑さをモデル化し、理解し、シミュレートできる AI を作成することは、人工知能分野の出現以来、非常に困難な課題となっています静止画像とは異なり、ビデオは本質的に、時間の経過による変化3D空間、物理的な相互作用オブジェクトの連続性などを提示することを伴います。これまでのビデオ生成モデルでは、さまざまなビデオの長さ、解像度、カメラアングルを処理するのが困難でした。さらに重要なことは、これらのシステムには、現実高精度シミュレーションに必要物理学、因果関係およびオブジェクトの永続性に関する本質的な理解が欠けていることです

OpenAIが公開したビデオでは、これらの分野でこれまで見てきたものよりも優れたパフォーマンスを発揮するモデルが紹介されています。率直に言って、これらのビデオは本物のように見えますたとえば、人の頭標識を遮った後、その上を通過して標識の文字はそのまま残ります動物たちは「遊んでいる」ときでもリアルに羽ばたきます風に吹かれた花びらは風とともに揺れるでしょう。ほとんどのビデオモデルはこの課題に対して無力であり、その結果、視聴者が判別しにくいちらつきや揺れのある画像が生成されることがよくありますが、Sora にはこの問題はありません。これはどうやって実現するのでしょうか?

モデルアーキテクチャとトレーニングに関する技術的な詳細

モデルと既存の投稿を見たときに私が最初に気づいたのは、この研究がOpenAIの GPTのような言語モデルに関する以前の研究に基づいているということでした

  • ビデオの特性評価

研究者らが導入した重要な革新は、 Sora がトレーニング プロセス中にビデオを表現する方法です。各フレームはGPT-4などの大規模言語モデル単語がトークンに分割される方法と同様に多数の小さなパッチ( Patch )に分割されます。このパッチベースのアプローチにより、さまざまな長さ、解像度、方向、アスペクト比のビデオを使用してSora をトレーニングできますソース ビデオの元の形状に関係なく、フレームから抽出されたパッチはまったく同じ方法処理されます

図 1. OpenAI の研究論文より:「大まかに言えばまずビデオを低次元の潜在空間に圧縮し、次にビデオ表現を時空間パッチに分解することで、ビデオパッチ分割ます。」

  • モデルアーキテクチャ

Sora はGPTモデルに密接に関連する Transformer アーキテクチャを使用して、これらのビデオチャンク長いシーケンスを処理します Transformerには時空間自己注意レイヤーが含まれておりテキスト、オーディオ、ビデオなどのシーケンス内の長距離依存関係をモデル化する際に大きなメリットあることがわかっています

トレーニングSoraTransformerモデルは、拡散プロセスの初期段階から一連のビデオチャンク トークンを入力として受け取り、ノイズ除去されたトークンを予測します何百万ものさまざまなビデオトレーニングすることで Sora は自然なビデオ フレームのパターンとセマンティクスをゆっくりと学習します。

図2. OpenAIの研究論文からのノイズ除去プロセス図

  • テキスト調整

Sora は条件付きでもあり、テキストプロンプトに基づいてビデオを制御的に生成できます。テキストプロンプトは、現在のビデオフレームに対応するパッチとともに、追加のコンテキストとして埋め込まれモデルに提供されます

テキストの説明を実際のビデオコンテンツにうまく結び付けるために、研究者は各トレーニングビデオに、別のキャプションモデルから生成された非常に説明的なキャプションを使用しました。このテクノロジーにより、 Sora はテキストの指示にさらに忠実に従うことができるようになります。

  • 推論プロセス

推論中、Sora は純粋なノイズパッチから開始し、一貫性のある滑らかなビデオが生成されるまで、50 を超える拡散ステップで繰り返しノイズ除去を行います。さまざまなテキストプロンプトを提供することで、Sora は字幕適切に一致するさまざまなビデオを生成できます

ビデオパッチベースの表現により、拡散プロセスを開始する前にパッチを目的の形状配置するだけで、Sora はテスト時にあらゆる解像度、期間、方向を処理できます

機能と制限

OpenAI チームはトレーニング データを数百万のビデオ クリップに拡大し、膨大な計算リソースを使用することで、非常に興味深い新たな動作を発見しました

  • Sora はテキストからビデオを生成するだけでなく、入力画像や他のビデオからビデオを生成することもできます。
  • ソラは、キャラクターやオブジェクトリアル連続的に動いており、シーンを3D で理解ているように見えます。これは純粋にデータのサイズによるもので明示的な3D モデリングやグラフィック コードは必要ありません
  • このモデルはオブジェクトの持続性を示し、エンティティやオブジェクトが一時的にフレームから外れたり遮蔽されたりした場合でも、多くの場合、それらを追跡します
  • Sora は、デジタル画家のキャンバス上の筆遣いが時間の経過とともに正確に保存されるなどいくつかの基本的な現実世界のインタラクションをシミュレートする能力を実証しました
  • また、Minecraft のような複雑な仮想世界やゲームを説得力を持って生成することもできます。 Sora は、生成された環境内で移動するエージェントを制御しながらシーンをレンダリングできます。
  • 追加の計算能力とデータにより、ビデオ品質、一貫性、キューのコンプライアンスが大幅に向上し、スケールによるさらなるメリットが実証されました

しかし、ソラにはまだ明らかな欠陥と限界があります

  • 現実世界のより複雑な物理的な相互作用、ダイナミクス、因果関係を正確にモデル化することは、多くの場合困難です。単純な物理学とオブジェクトのプロパティは、依然として難しいままです。たとえば、グラスが倒れて液体がこぼれると、グラスがテーブルの上に溶け、液体がグラスの側面を伝って流れ落ちますが、グラスは粉々砕けません。
  • モデルは特に混雑したシーンや雑然としたシーンでは、予期しないオブジェクトやエンティティを自発的に生成することがよくあります
  • ソラは簡単に左右を混同したり、多くの動作が行われているときに、一定期間にわたるイベントやアクティビティの正確な順序が簡単に乱れたりすることがあります
  • 複数のキャラクターと環境間の自然な相互作用をリアルにシミュレートすることは依然として困難ですたとえばトレッドミル上で逆方向に歩いている人のビデオを生成できます

今後の開発の方向性

これらの根深い欠陥にもかかわらず研究者がビデオ生成モデルのスケールアップを続けるにつれて、 Sora は将来の可能性を予見させます十分なデータと計算能力があれば、ビデオトランスフォーマーは現実世界の物理学、因果関係、物体の永続性についてより深い理解を深め始めるかもしれません。言語理解機能と組み合わせることで現実世界ビデオベースのシミュレーションを通じてAIシステムをトレーニングするための新しいアイデアが生まれることが期待されます

ソラはこの目標に向けて最初の一歩を踏み出しました多くの弱点を克服するにはさらなる作業が必要ですがそれが示す新たな能力は、この研究方向の将来性を浮き彫りにしています。大規模かつ多様なビデオデータセットを使用してトレーニングされた巨大トランスフォーマーは、最終的には、私たちの物理的環境に内在する複雑さ、豊かさ、深さインテリジェントに対話し、理解できる AI システムを生み出す可能性があります

結論は

したがって、根拠のない主張に反して、Sora はゲーム エンジンやデータ駆動型物理エンジン上で実行されるのではなく GPT-4 がテキストトークン上で実行されるのと同じように、ビデオ「タイル」上で実行されるトランスフォーマーアーキテクチャ上で実行されます理解の深さオブジェクトの持続性、自然なダイナミクスを示すビデオの作成に優れています

このモデルの主な革新点は、言語モデルの単語トークン同様に、ビデオフレームをパッチのシーケンスとして処理しさまざまなビデオの側面を効果的に管理できるようにすることです。このアプローチテキスト条件付き生成を組み合わせることで、Sora はテキストの手がかりに基づいて、文脈的に関連性があり視覚的に一貫性のあるビデオを生成できます。

画期的な機能にもかかわらず、Sora には、複雑なインタラクションのモデリング動的シーンの一貫性の維持など、依然として制限がありますこれらの制限はさらなる研究の必要性を浮き彫りにしますが、ビデオ生成技術の進歩における重要な成果損なうものではありません

Sora がすぐにリリースされ、皆さんに試してもらえることを願っています。このテクノロジーには、新しくてエキサイティングな用途がたくさんあると思うので楽しみに待ちましょう。

ソラの仕組み(実際

<<: 

>>:  オープンソースの大規模モデルの王座が交代しました! Google Gemmaが市場に参入、ノートパソコンは動作可能でビジネスにも使用可能

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

OpenAIの画像検出ツールが公開され、CTO: AI生成画像の99%を認識可能

OpenAI は AI 画像認識を開始しようとしています。最新のニュースとしては、同社が検出ツールを...

...

自分で作成したデータセット、TensorFlow を使用した株価予測チュートリアル

[[211061]] STATWORX チームは最近、Google Finance API から S...

...

顔認識はあなたの家の玄関からどれくらい離れていますか?

最近、Google Chinaは新たなPR活動を開始した。そのひとつは、Zhihuで「AIが私たちの...

...

ザッカーバーグは7億ドルの配当金を受け取り、Metaの株価は14%急騰、オープンソース計画は成功したのか?

メタの株価は木曜日の時間外取引で14%近く上昇し、史上最高値に達したが、同社は初の配当を発表した。最...

...

意思決定インテリジェンス: 人工知能における新たな方向性

[[353168]]記者趙光麗最近、中国科学院自動化研究所(以下、自動化研究所)は、「妙算智慧」戦術...

超低消費電力センサーソリューションがスマートビルディングを実現する方法

現在、モノのインターネット(IoT)のインフラストラクチャはすでに非常に完成しており、その適用範囲は...

...

李開復:人工知能に取って代わるのが最も難しい10の仕事

[[246854]]私の意見では、警告、悲観、パニックはすべて「廬山の本当の顔を知らない」根拠のない...

「百度脳産業イノベーションフォーラム」が本格始動、伝統産業向けAIソリューションを提案

「将来、AIとは何の関係もないと主張する企業はなくなるだろう」これは、2018年の世界人工知能会議で...

テスラが自社開発したスーパーコンピュータDojo!日本の「富岳」に代わる世界初の

[[406953]]自動車メーカー、自動運転企業、バッテリーおよびエネルギー貯蔵企業として、テスラは...

315人の完全なリストが公開: インターネットの蛮行は終結すべき

2022 315 ガラは、3 月 15 日午後 8 時に予定通り開催されます。今年の315ガラは「...