ルカンはソラを世界モデルとして非難し、自己回帰LLMは単純すぎると述べた。

ルカンはソラを世界モデルとして非難し、自己回帰LLMは単純すぎると述べた。

近年、ソラは世界中の注目を集めています。それに関連するすべてのものが極端に拡大されます。

Sora が人気なのは、高品質のビデオを出力できるだけでなく、OpenAI が「世界シミュレーター」と定義しているからです。

Nvidia の上級研究科学者 Jim Fan 氏は、「Sora はデータ駆動型の物理エンジンであり、学習可能なシミュレーター、つまり『世界モデル』です」とさえ主張しています。

「ソラは世界モデルである」という見解は、常に「世界モデル」を研究の中心に据えてきたチューリング賞受賞者のヤン・ルカン氏を少々不安にさせた。 LeCun 氏の見解では、プロンプトに基づいて単にリアルなビデオを生成するだけでは、モデルが物理世界を理解しているということにはなりません。ビデオを生成するプロセスは、世界モデルに基づく因果予測とはまったく異なります。

画像出典: https://twitter.com/ylecun/status/1758740106955952191

Sora のリリースは AI コミュニティ全体を熱狂させたが、LeCun 氏は楽観視していなかった。彼は自己回帰とLLMに対する批判を何度も公に表明しています。自己回帰モデルは、Soraを含むGPTシリーズのLLMモデルが依存している学習パラダイムです。言い換えれば、ChatGPTからSoraまで、OpenAIは自己回帰生成ルートを採用しています。

しかし、LeCun 氏はこの技術的な方法を何度も批判してきました。彼は、「5 年後には、正気な人なら誰も自己回帰モデルを使用しなくなるだろう」「自己回帰生成モデルは最悪だ!」「LLM の世界に対する理解は非常に表面的だ」など、不満を表明しています。

世界モデルと自己回帰 LLM はどのように定義されるべきでしょうか?世界的に有名なAI研究者であるルカン氏は、当然ながら完全な批判者ではない。最近、同氏は世界モデルの新たな定義を提示した。彼の見解では、自己回帰生成モデルは世界モデルの単純化された特殊なケースに過ぎません。インターネットでよく見かける長い科学講義とは異なり、ルカンは世界モデルをシンプルかつわかりやすい方法で定義しています。

画像出典: https://twitter.com/ylecun/status/1759933365241921817

与えられた条件:

  • 観測x(t);
  • 世界の状態s(t)の前回の推定値。
  • アクション提案a(t);
  • 潜在変数提案z(t)。

世界モデルでは次のことを計算する必要があります。

  • 特性: h (t) = Enc (x (t));
  • 予測は次のようになります: s(t+1) = Pred(h(t), s(t), z(t), a(t))。

で、

  • Enc() はエンコーダーです(ニューラル ネットワークなどのトレーニング可能な決定論的関数と考えることができます)。
  • Pred() は隠れ状態予測子(これもトレーニング可能な決定論的関数)です。
  • 潜在変数z(t)は未知の情報を表し、将来何が起こるかを正確に予測することができます。 z(t) 変数は分布からサンプリングされるか、セット全体で変化する必要があります。可能な予測の範囲をパラメータ化(または配布)します。言い換えれば、変数 z(t) は、将来何が起こるかを予測するための可能性空間を定義します。

秘訣は、エンコーダーが崩壊するのを防ぎながら、トリプレット (x(t),a(t),x(t+1)) を観察してモデル全体をトレーニングすることです。

自己回帰生成モデル (LLM、Sora はこのルートなど) は、次の理由により簡略化の特殊なケースです。

1. エンコーダは恒等関数です: h (t) = x (t);

2. 状態は過去の入力を確認するための窓です。

3. アクション変数a(t)は存在しない。

4. x(t)は離散的である。

5. 予測子は結果x(t+1)の分布を計算し、潜在変数z(t)を使用してその分布から値を選択します。

式は次のように簡略化されます。

s ( t ) = [x ( t ), x ( t - 1 ), ... x ( t k )]

x (t+1) = 予測値 ( s (t), z (t), a (t) )

この場合、崩壊の問題はありません。

これは、ソラが世界モデルであるという見解に LeCun が強く反対する重要な理由かもしれません。ソラは世界モデルの単純化された特殊なケースにすぎないからです。

しかし、ジム・ファンはルカンのツイートの下に別のコメントを残し、次のように主張した。「ソラは本質的にはノーオペレーションの世界モデルです。世界の初期状態を設定し、潜在空間でシミュレーションを実行し、何が起こるかを受動的に観察することができます。現時点では、積極的に介入する方法はありません。」

ソラが世界モデルであるかどうかについては、今は議論しません。長い間皆を混乱させてきた「世界モデル」の定義が、ついにLeCunによって明らかにされました。

<<:  クアルコムとインテルはAIをデータセンターから移行したいと考えている

>>:  Google が基本世界モデルをリリース: 110 億のパラメータ、インタラクティブな仮想世界を生成可能

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

MetaはオープンソースのAIツールAudioCraftをリリースしました。これにより、ユーザーはテキストプロンプトを通じて音楽やオーディオを作成できます。

8月3日(東部時間8月2日)、Metaは、ユーザーがテキストプロンプトを通じて音楽やオーディオを作...

マーケターがAIと機械学習を活用して顧客にリーチする方法

数十年前、技術者が初めて人工知能の概念を生み出したとき、彼らは人間の知能を模倣できる技術を生み出そう...

AIが「軍事顧問」に?まずはRedditユーザーを獲得しよう

[[322491]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

ヘルスケアがビッグデータの恩恵を受ける6つの方法

テクノロジーは常に世界を変えています。人工知能とビッグデータが融合し、人々にさまざまな恩恵をもたらし...

RPA 導入が失敗する 7 つの理由

ロボティック・プロセス・オートメーションは現在、業界全体のデジタル化を推進するデジタル変革の中核とな...

ZeroMat: データを一切使用せずにレコメンデーションシステムのコールドスタート問題を解決する

[[428372]] [51CTO.com からのオリジナル記事]推奨システムは、登場以来、学界や産...

南開大学、山東大学、北京理工大学のチームがtrRosettaRNAを開発: Transformerネットワークを使用してRNAの3D構造を自動的に予測

RNA 3D 構造予測は長年の課題です。タンパク質構造予測における最近の進歩に触発され、南開大学、山...

VB.NET バブルソートアルゴリズムの詳細な説明

VB.NET を学習する場合、中国語の情報が非常に少なく、大多数のプログラマーのニーズを満たすのが難...

現在、中国における知能ロボットの開発状況はどうなっているのでしょうか?

インテリジェントロボットは、知覚、思考、効果の面で人間を完全にシミュレートする機械システムです。近年...

RSA アルゴリズムが解読された場合、暗号化の将来はどうなるでしょうか?

インターネットのセキュリティ層に一夜にして巨大な亀裂が生じたらどうなるか考えたことがありますか? 亀...

AIが建物の運営に及ぼす影響

昨年、ChatGPT とその他の AI 搭載サービス エンジンがリリースされて以来、このテクノロジー...

調査結果:人工知能はクリエイターにより多くのファンと収入をもたらす可能性がある

7月18日、DescriptとIpsosがポッドキャストや動画の制作者1,004人を対象に実施した調...

AIが医薬品開発において適切な医薬品成分の特定にどのように役立つか

[[378110]]デジタル技術の導入に関しては、製薬業界では導入が遅れる傾向にあります。これまで、...

機械学習の新たな嵐: ML モデルを使用して住宅価格を予測する方法とは?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

Ant Groupが、プログラマー向けAIアシスタントの新たな競合製品となるオープンソースコードモデルCodeFuseを発表

9月8日現在、コード作成を支援できるAI製品はすでに数多く市場に出回っている。本日の外灘大会サブフォ...