Meta、Google、Tesla、競合他社が団結してOpenAIについて不満を訴える！ソラは物理世界を理解していません。GPT3 だけです。

編集者 | ヤン・ジェン

制作：51CTO テクノロジースタック（WeChat ID：blog）

先週、OpenAI 初のビデオ生成モデル「Sora」がインターネット上で話題になった。しかし同時に、ライバル企業のAI専門家と研究者のグループがソラのトランスフォーマーモデルを即座に分析して批判し、物理学上の論争を引き起こした。

人工知能科学者のゲイリー・マーカス氏もその一人だ。彼はソラが生成した動画の正確さを批判しただけでなく、動画合成に使用された生成AIモデルを直接的に非難した。

写真

1. OpenAI の競合企業が団結しました!

Sora の拡散モデル構造は、Meta と Google の研究者から懐疑的な見方を引き起こしており、彼らはこのモデルが物理世界を真に理解していないと考えている。

LeCun 氏は、プロンプトからリアルな動画を生成するだけでは、システムが物理的な世界を理解しているということにはならないと主張しています。彼は、生成は世界のモデルからの因果予測とは非常に異なると指摘しています。もっともらしいビデオの空間は非常に大きく、ビデオ生成システムは 1 つのサンプルを正常に生成するだけで済みます。

LeCun 氏には独自のソリューションもあります。Meta の最新 AI モデル V-JEPA (Video Joint Embedding Prediction Architecture) です。Sora とは異なり、JEPA は生成的ではなく、表現空間で予測を行います。これは、V-JEPA の自己教師ありモデルが Sora の Diffusion Transformer モデルよりも優れているように見せるためです。

研究者であり起業家でもあるエリック・シン氏は、ルカン氏の見解を支持し、「理解に基づいて推論できるエージェントモデルは、LLM や DM を超える必要があります」と述べています。

Gemini Pro 1.5 のリリースのタイミングは、これ以上ないほど絶妙でした。ソラさんが制作した動画はジェミニ1.5プロで再生されたもので、モデルは動画の矛盾点を批判し、「これは実際のシーンではない」と主張した。マスク氏もすぐ後に続いた。同氏は、正確な物理学を予測する点では、テスラのビデオ生成能力はOpenAIの能力よりも優れていると述べた。

写真

専門家は生成モデルの威力をすぐに否定してきましたが、その背後にある「物理学」を理解することは見過ごされてきました。

2. トランスフォーマーは本当に物理学を理解しているのでしょうか?

Sora は GPT モデルに似た Transformer アーキテクチャを使用しており、OpenAI はこの基盤が「現実世界を理解してシミュレート」し、AGI の実現に役立つと考えています。物理エンジンとは呼ばれていませんが、Unreal Engine 5 によって生成されたデータが Sora の基礎モデルのトレーニングに使用された可能性があります。

NVIDIA の上級研究科学者 Jim Fan 氏が、データ駆動型物理エンジンについて説明することで、OpenAI の Sora モデルをわかりやすく説明します。「Sora は、多数のビデオの勾配降下法を通じて、ニューラルパラメータ内の物理エンジンを暗黙的に学習します」と彼は述べ、Sora を学習可能なシミュレーターまたは世界モデルとして言及しました。ファン氏はまた、ソラ氏の還元主義的な見解に異議を唱えた。「『Sora は物理を学習しているのではなく、2D でピクセルを操作しているだけだ』という反論の声も耳にしました。私はこの還元主義的な見方には敬意を表して反対します。これは『GPT-4 はエンコーディングを学習しているのではなく、文字列をサンプリングしているだけだ』と言っているようなものです。トランスフォーマーが行うことは整数のシーケンス (トークン ID) を操作することだけです。ニューラルネットワークが行うことは浮動小数点数を操作することだけです。これは正しい議論ではありません」と彼は言いました。

3. SoraはまだGPT-3の段階にある

最近ソーシャルメディアで声高に発言しているパープレキシティの創設者アラヴィンド・スリニヴァス氏も、ルカン氏を支持する発言をした。「現実には、SORA は素晴らしいものの、物理を正確にシミュレートする準備がまだ整っていません」と彼は語った。

興味深いことに、OpenAI 自身が誰よりも先にこのモデルの限界を指摘しました。同社のブログによると、Sora は原因と結果の具体的な事例を理解していない可能性があるため、複雑なシナリオの物理を正確にシミュレートすることが難しい可能性があるという。また、特定のカメラの軌跡をたどるなど、キューの空間的な詳細と混同される可能性もあります。

ファン氏はまた、Sora を、モデルが「多くのプロンプトと注釈」を必要とした 2020 年の「GPT-3 の瞬間」に例えた。しかし、これは「文脈学習が創発的な特性であることが説得力を持って実証された初めての事例」である。

現在の制限は、生成される出力の品質には影響しません。昨年8月、OpenAIがオープンソースゲーム「Biomes」（Minecraftに類似）を開発したデジタル製品会社Global Illuminationを買収した際、自動化エージェントによるビデオ生成やシミュレーションモデル構築のためのプラットフォームの範囲が、憶測の対象となっていた。

現在、SORA のリリースにより、ビデオゲーム業界に混乱をもたらす可能性はさらに高まっています。 Sora が GPT-3 の瞬間にある場合、その GPT-4 の瞬間をどのように理解すればよいでしょうか?それまでは、懐疑論者たちは議論を続け、おそらくお互いに1つか2つの教訓を教え合うことになるだろう。

写真

4. メタ・ルカンの答え

昨日、Meta は Open AI の Sora と共同で、Video Joint Embedding Prediction Architecture (V-JEPA) と呼ばれる新しい AI モデルをリリースしました。 V-JEPA は、ビデオ内のオブジェクト間の相互作用を分析することで、機械の世界に対する理解を向上させます。このモデルは、人間と同様に学習する機械知能を創り出すという、Meta 副社長兼主任 AI 科学者 Yann LeCun 氏のビジョンを継承しています。

昨年リリースされた I-JEPA の第 5 版では、ピクセル自体の比較ではなく画像の抽象的な表現の比較からビデオまで範囲が拡張されました。画像からビデオまで学習することで予測手法を進化させ、空間情報に加えて時間的（時間ベース）ダイナミクスの複雑さを導入します。

V-JEPA は、細部まで再現することなく、ビデオ内の欠落部分を予測します。ラベル付けされていないビデオから学習するため、学習を開始するために人間が分類したデータは必要ありません。

このアプローチにより、V-JEPA はより効率的になり、トレーニングに必要なリソースが少なくなります。このモデルは少量の情報からの学習に特に優れており、古いモデルよりも高速でリソース消費も少なくなります。

モデルの開発には、ビデオの大部分をブロックすることが必要でした。このアプローチにより、V-JEPA は限られたコンテキストに基づいて推測を行うことができ、詳細なデータがなくても複雑なシナリオを理解するのに役立ちます。 V-JEPA は、木の個々の葉の動きのような具体的な詳細ではなく、ビデオで何が起こっているかという全体的なアイデアに焦点を当てています。

V-JEPA はテストにおいて有望な結果を示し、通常必要とされるデータのごく一部を使用して他のビデオ分析モデルよりも優れたパフォーマンスを示しました。この効率性は人工知能にとって前進とみなされており、大規模な再トレーニングを行わずにさまざまなタスクにモデルを使用できるようになります。

今後、Meta は音声分析の追加や、より長い動画の理解能力の向上など、V-JEPA の機能を拡張する予定です。

この研究は、機械知能を進化させてより人間に近い複雑なタスクを実行できるようにするという Meta のより広範な目標をサポートするものです。 V-JEPA は Creative Commons 非営利ライセンスの下で公開されており、世界中の研究者がこの技術を探索し、構築することができます。

<<: AI はフロントエンドコードを生成できますか?

>>: F5、AI時代のアプリケーションセキュリティの新たな革命をリード