Meta、Google、Tesla、競合他社が団結してOpenAIについて不満を訴える!ソラは物理世界を理解していません。GPT3 だけです。

Meta、Google、Tesla、競合他社が団結してOpenAIについて不満を訴える!ソラは物理世界を理解していません。GPT3 だけです。

編集者 | ヤン・ジェン

制作:51CTO テクノロジースタック(WeChat ID:blog)

先週、OpenAI 初のビデオ生成モデル「Sora」がインターネット上で話題になった。しかし同時に、ライバル企業のAI専門家と研究者のグループがソラのトランスフォーマーモデルを即座に分析して批判し、物理学上の論争を引き起こした。

人工知能科学者のゲイリー・マーカス氏もその一人だ。彼はソラが生成した動画の正確さを批判しただけでなく、動画合成に使用された生成AIモデルを直接的に非難した。

写真

1. OpenAI の競合企業が団結しました!

Sora の拡散モデル構造は、Meta と Google の研究者から懐疑的な見方を引き起こしており、彼らはこのモデルが物理世界を真に理解していないと考えている。

LeCun 氏は、プロンプトからリアルな動画を生成するだけでは、システムが物理的な世界を理解しているということにはならないと主張しています。彼は、生成は世界のモデルからの因果予測とは非常に異なると指摘しています。もっともらしいビデオの空間は非常に大きく、ビデオ生成システムは 1 つのサンプルを正常に生成するだけで済みます。

LeCun 氏には独自のソリューションもあります。Meta の最新 AI モデル V-JEPA (Video Joint Embedding Prediction Architecture) です。Sora とは異なり、JEPA は生成的ではなく、表現空間で予測を行います。これは、V-JEPA の自己教師ありモデルが Sora の Diffusion Transformer モデルよりも優れているように見せるためです。

研究者であり起業家でもあるエリック・シン氏は、ルカン氏の見解を支持し、「理解に基づいて推論できるエージェント モデルは、LLM や DM を超える必要があります」と述べています。

Gemini Pro 1.5 のリリースのタイミングは、これ以上ないほど絶妙でした。ソラさんが制作した動画はジェミニ1.5プロで再生されたもので、モデルは動画の矛盾点を批判し、「これは実際のシーンではない」と主張した。マスク氏もすぐ後に続いた。同氏は、正確な物理学を予測する点では、テスラのビデオ生成能力はOpenAIの能力よりも優れていると述べた。

写真

専門家は生成モデルの威力をすぐに否定してきましたが、その背後にある「物理学」を理解することは見過ごされてきました。

2. トランスフォーマーは本当に物理学を理解しているのでしょうか?

Sora は GPT モデルに似た Transformer アーキテクチャを使用しており、OpenAI はこの基盤が「現実世界を理解してシミュレート」し、AGI の実現に役立つと考えています。物理エンジンとは呼ばれていませんが、Unreal Engine 5 によって生成されたデータが Sora の基礎モデルのトレーニングに使用された可能性があります。

NVIDIA の上級研究科学者 Jim Fan 氏が、データ駆動型物理エンジンについて説明することで、OpenAI の Sora モデルをわかりやすく説明します。 「Sora は、多数のビデオの勾配降下法を通じて、ニューラル パラメータ内の物理エンジンを暗黙的に学習します」と彼は述べ、Sora を学習可能なシミュレーターまたは世界モデルとして言及しました。ファン氏はまた、ソラ氏の還元主義的な見解に異議を唱えた。 「『Sora は物理を学習しているのではなく、2D でピクセルを操作しているだけだ』という反論の声も耳にしました。私はこの還元主義的な見方には敬意を表して反対します。これは『GPT-4 はエンコーディングを学習しているのではなく、文字列をサンプリングしているだけだ』と言っているようなものです。トランスフォーマーが行うことは整数のシーケンス (トークン ID) を操作することだけです。ニューラル ネットワークが行うことは浮動小数点数を操作することだけです。これは正しい議論ではありません」と彼は言いました。

3. SoraはまだGPT-3の段階にある

最近ソーシャルメディアで声高に発言しているパープレキシティの創設者アラヴィンド・スリニヴァス氏も、ルカン氏を支持する発言をした。 「現実には、SORA は素晴らしいものの、物理を正確にシミュレートする準備がまだ整っていません」と彼は語った。

興味深いことに、OpenAI 自身が誰よりも先にこのモデルの限界を指摘しました。同社のブログによると、Sora は原因と結果の具体的な事例を理解していない可能性があるため、複雑なシナリオの物理を正確にシミュレートすることが難しい可能性があるという。また、特定のカメラの軌跡をたどるなど、キューの空間的な詳細と混同される可能性もあります。

ファン氏はまた、Sora を、モデルが「多くのプロンプトと注釈」を必要とした 2020 年の「GPT-3 の瞬間」に例えた。しかし、これは「文脈学習が創発的な特性であることが説得力を持って実証された初めての事例」である。

現在の制限は、生成される出力の品質には影響しません。昨年8月、OpenAIがオープンソースゲーム「Biomes」(Minecraftに類似)を開発したデジタル製品会社Global Illuminationを買収した際、自動化エージェントによるビデオ生成やシミュレーションモデル構築のためのプラットフォームの範囲が、憶測の対象となっていた。

現在、SORA のリリースにより、ビデオゲーム業界に混乱をもたらす可能性はさらに高まっています。 Sora が GPT-3 の瞬間にある場合、その GPT-4 の瞬間をどのように理解すればよいでしょうか?それまでは、懐疑論者たちは議論を続け、おそらくお互いに1つか2つの教訓を教え合うことになるだろう。

写真

4. メタ・ルカンの答え

昨日、Meta は Open AI の Sora と共同で、Video Joint Embedding Prediction Architecture (V-JEPA) と呼ばれる新しい AI モデルをリリースしました。 V-JEPA は、ビデオ内のオブジェクト間の相互作用を分析することで、機械の世界に対する理解を向上させます。このモデルは、人間と同様に学習する機械知能を創り出すという、Meta 副社長兼主任 AI 科学者 Yann LeCun 氏のビジョンを継承しています。

昨年リリースされた I-JEPA の第 5 版では、ピクセル自体の比較ではなく画像の抽象的な表現の比較からビデオまで範囲が拡張されました。画像からビデオまで学習することで予測手法を進化させ、空間情報に加えて時間的(時間ベース)ダイナミクスの複雑さを導入します。

V-JEPA は、細部まで再現することなく、ビデオ内の欠落部分を予測します。ラベル付けされていないビデオから学習するため、学習を開始するために人間が分類したデータは必要ありません。

このアプローチにより、V-JEPA はより効率的になり、トレーニングに必要なリソースが少なくなります。このモデルは少量の情報からの学習に特に優れており、古いモデルよりも高速でリソース消費も少なくなります。

モデルの開発には、ビデオの大部分をブロックすることが必要でした。このアプローチにより、V-JEPA は限られたコンテキストに基づいて推測を行うことができ、詳細なデータがなくても複雑なシナリオを理解するのに役立ちます。 V-JEPA は、木の個々の葉の動きのような具体的な詳細ではなく、ビデオで何が起こっているかという全体的なアイデアに焦点を当てています。

V-JEPA はテストにおいて有望な結果を示し、通常必要とされるデータのごく一部を使用して他のビデオ分析モデルよりも優れたパフォーマンスを示しました。この効率性は人工知能にとって前進とみなされており、大規模な再トレーニングを行わずにさまざまなタスクにモデルを使用できるようになります。

今後、Meta は音声分析の追加や、より長い動画の理解能力の向上など、V-JEPA の機能を拡張する予定です。

この研究は、機械知能を進化させてより人間に近い複雑なタスクを実行できるようにするという Meta のより広範な目標をサポートするものです。 V-JEPA は Creative Commons 非営利ライセンスの下で公開されており、世界中の研究者がこの技術を探索し、構築することができます。

<<:  AI はフロントエンドコードを生成できますか?

>>:  F5、AI時代のアプリケーションセキュリティの新たな革命をリード

ブログ    
ブログ    

推薦する

IoTがAIの可能性をどう活用できるか

過去 10 年間、モノのインターネットはビジネスの世界で着実に導入されてきました。企業はすでに Io...

人種問題で顔認識技術はどうなるのか?

米国では、白人警官による黒人市民に対する過剰な法執行が日常茶飯事である。最近、白人警官が黒人男性を膝...

AIは風力発電業界で深く応用されています。Kuoboのインテリジェントドローンは、わずか20分で全自動検査を行います

[原文は51CTO.comより] Cloboticsはこのほど、風力タービンブレードの全自動検査の新...

なぜドローンが5Gの商用利用の第一選択肢なのでしょうか?その理由はこの3点です!

近年、私たちの生活におけるドローンの応用はますます一般的になっています。当初は軍事分野でしたが、その...

GenAIの有効性に影響を与える主な問題

企業は GenAI をビジネスに適用しようとすると、多くの抵抗と予想外の変更管理の問題に直面します。...

AI画像合成技術の新たな波:Stable Diffusion 3とSoraアーキテクチャのブレークスルー

人工知能の黄金時代を迎え、画像合成技術はかつてない速さで発展しています。単純な画像編集から複雑なシー...

いくつかの名門大学とAdobeは、このオープンソースアルゴリズムを使用して、300年以上前の手紙を「透視」しました。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

伝染病警報!人工知能は何をするのでしょうか?

中国で新型コロナウイルスの感染が初めて確認されたのは2019年12月19日。感染源については、これま...

AIとデータが未来のスマートシティを強化する5つの方法

私たちが住む世界はますます都市化が進んでいます。 2009 年の国連の調査によると、毎週 130 万...

ネットワークデータセキュリティ管理に関する新たな規制が導入される

顔は機密性の高い個人情報です。一度漏洩すると、個人や財産の安全に大きな損害を与え、公共の安全を脅かす...

無料の AI ベスト論文検索ツール: ワンクリックで結果を表示し、数分で論文の表とデータを抽出

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

人工知能は非常に強力だが、人間は必ずしも人工知能に支配されるわけではない。ホーキングは間違っているのだろうか?

著者: ふす有名な物理学者ホーキング博士はかつて、将来人類は人工知能によって滅ぼされるかもしれないの...

深層学習におけるチューリング賞受賞後のベンジオ氏の研究の核心は何ですか?因果表現学習

最近発表された論文で、チューリング賞受賞者のヨシュア・ベンジオ氏らは、チームの現在の研究の焦点である...

...

フードデリバリーロボット市場は11.6億規模に到達。美団は「台頭」するか?

近年、ロボット産業は急速に発展しており、工業、農業、サービスなど多くの分野でロボットが見られるように...