赤ちゃんのように学習するディープマインド社の新モデルは、28時間で物理世界のルールを学習します

Deepmind は、直感的な物理学を学習できるモデルを構築し、モデルがなぜこの能力を実現するのかを分析することを目指しています。

AlphaFold から数学的推論まで、DeepMind は AI と基礎科学の融合に取り組んでいます。現在、DeepMind は物理学の単純な法則を学習できる新しいモデルを開発しました。

発達心理学者は、赤ちゃんが目で物体の動きを追う様子をテストし、分析します。たとえば、ビデオの中でボールが突然消えたとき、子どもたちは驚きました。

DeepMind のコンピューター科学者 Luis Piloto 氏と彼の同僚は、人工知能 (AI) 用の同様のテストを開発したいと考えていました。研究チームは、立方体やボールなどの単純な物体のアニメーション動画を使用してニューラルネットワークをトレーニングし、モデルは大量のデータからパターンを発見して学習します。この研究論文は7月11日にNature Human Behaviour誌に掲載された。

論文アドレス: https://www.nature.com/articles/s41562-022-01394-8
データセットアドレス: https://github.com/deepmind/physical_concepts

このモデルは、オブジェクトを自動的にエンコードして追跡することで物理学を学習するため、PLATO (Physics Learning through Auto-encoding and Tracking Objects) という名前が付けられています。 PLATO は、ビデオからの元の画像と、シーン内の各オブジェクトを強調表示する画像のバージョンを受け取ります。 PLATO は、位置や速度などのオブジェクトの物理的特性の内部表現を開発することを目的としています。

このシステムは、単純な動作メカニズム（傾斜路を転がるボールなど）を示す約 30 時間のビデオでトレーニングされ、さまざまな状況でこれらのオブジェクトがどのように動作するかを予測する能力を開発しました。特に、PLATO は継続性と堅牢性を学習し、ターゲットの軌道が中断されず、オブジェクトの形状が永続的であることを保証します。ビデオが再生されるにつれて、モデルの予測がより正確になります。

物体が突然消えるなど「あり得ない」出来事のビデオを見せられた場合、PLATO はビデオと自身の予測の違いを測定し、「驚き」の尺度を提供することができます。

「PLATO は乳児の行動のモデルとして設計されたわけではありませんが、人間の乳児がどのように学習するかについての仮説をテストすることができます」とピロト氏は言う。「認知科学者が最終的にこれを使用して乳児の行動をシミュレートできるようになることを期待しています。」

「AIを人間の赤ちゃんの学習方法と比較することは、重要な研究方向です」とブリティッシュコロンビア大学のコンピューター科学者ジェフ・クルーンは言う。「PLATOの研究者は、AIモデルに優位性を与える多くの事前知識を手作業で設計しました。」クルーン氏と他の研究者は、プログラムに物理世界を理解するための独自のアルゴリズムを開発させようとしている。

発達心理学の知識を応用する

AI システムにおけるより豊かな物理的直感を追求するために、DeepMind の研究チームは発達心理学からインスピレーションを得ました。研究チームは、物理学は個別の物体とその相互作用のレベルで理解されるという発達心理学の中核的な洞察を取り入れたディープラーニングシステムを構築しました。

本質的に、直感的な物理学は、区別、操作、および個別に調査できる一連の個別の概念 (オブジェクトの永続性、堅牢性、連続性など) に依存しています。 AI が直感的な物理学を学習するための従来の標準的なアプローチでは、ビデオや状態予測インジケーター、バイナリ結果予測、質問応答パフォーマンス、強化学習タスクを通じて物理世界について学習します。これらのアプローチは、直感的な物理学のいくつかの側面を理解することを必要とするようですが、明確な一連の概念を明示的に操作したり戦略的に探求したりすることはありません。

一方、発達心理学では、物理的概念は将来がどのように展開するかについての一連の期待に対応すると主張しています。たとえば、人々は物体が魔法のようにある場所から別の場所へテレポートするのではなく、時間と空間を連続的に移動することを期待しており、これが連続性の概念を生み出しています。したがって、特定の物理学の概念に関する知識を測定する方法、つまり期待値違反 (VoE) パラダイムが存在します。

VoE パラダイムを使用して特定の概念を探索する場合、研究者は、物理的概念と一致する (物理的に可能) か、または一致しない (物理的に不可能) 視覚的に類似した配列 (プローブと呼ばれる) を乳児に提示します。このパラダイムでは、驚きは視線の持続時間によって測定されます。

方法の紹介

まず、DeepMind は非常に豊富なビデオコーパスである Physical Concepts データセットを提案しました。このデータセットには、継続性、目標の持続性、堅実性など、発達心理学の中核要素と見なされる 5 つの重要な物理的概念を対象とした VoE プローブビデオが含まれています。 4 番目は不変性で、これは特定のオブジェクトのプロパティ (形状など) は変化しないという概念を捉えています。5 番目は方向慣性で、これは移動するオブジェクトが慣性の原理と一致する方向に変化するという期待を伴います。

最も重要なのは、Physical Concepts データセットにはトレーニングデータとして別のビデオコーパスも含まれていることです。これらのビデオでは、手続き的に生成されたさまざまな物理イベントを紹介します。

図2: モデルのトレーニングに使用したビデオデータセットの例

PLATO モデルアーキテクチャ

Deepmind は、直感的な物理学を学習できるモデルを構築し、モデルがなぜこの能力を実現するのかを分析することを目指しています。 AI 分野のいくつかの高度なシステムは、PLATO モデルでインスタンス化されています。

1 つ目は、目標のパーソナライズプロセスです。ターゲットパーソナライゼーションプロセスでは、視覚の連続的な知覚入力を個別のエンティティのセットに分割します。各エンティティには対応する属性のセットがあります。 PLATO では、各セグメント化されたビデオフレームは、認識モジュールを通じて一連のオブジェクトコード (図 3a-c) に分解され、視覚入力から個々のオブジェクトへのマッピングが実現されます。 PLATO はセグメンテーションのシナリオを学習しませんが、セグメンテーションの目的が与えられると、圧縮された表現を学習します。

第二に、オブジェクト追跡（またはオブジェクトインデックス作成）では、各オブジェクトにインデックスを割り当て、それによって時間の経過に伴うオブジェクトの認識と動的属性の計算との対応を可能にします（図3b、c）。 PLATO では、ターゲットコードはターゲットバッファー内のフレームにわたって蓄積され、追跡されます (図 3d)。

最後のコンポーネントは、追跡されたこれらのオブジェクトの関係処理です。これは、発達心理学で提案された「物理的推論システム」にヒントを得たプロセスで、オブジェクトの表現を動的に処理し、オブジェクトと他のオブジェクト間の関係や相互作用によって影響を受ける新しい表現を生成することができます。

PLATO は、ターゲットメモリとターゲット知覚履歴 (図 3d) 間の相互作用を学習し、次のターゲットの予測ビデオフレームを生成し、ターゲットベースのメモリを更新します。

図3: PLATOは、知覚モジュール（左）と動的予測（右）の2つのコンポーネントで構成されています。

実験結果

テスト時に、PLATO は 5 つの異なるランダムシードを使用してトレーニングされた場合、5 つの検出カテゴリすべてで強力な VoE パフォーマンスを示します。

図 5: PLATO は、Physical Concepts データセットの調査において堅牢なパフォーマンスを示しています。

Physical Concepts データセットのトレーニングコーパスには、合計 300,000 本のビデオが含まれています。控えめに計算すると、これには約 52 日間の継続的な視覚体験が必要になります。 AI と開発の観点から見ると、テストで VoE の結果を生成するために実際にどれだけのトレーニングデータが必要なのかという疑問が生じます。これを評価するために、Deepmind は、徐々にサイズが小さくなるデータセットで PLATO ダイナミクス予測子の 3 つのランダムシードをトレーニングし (図 6)、5 つの検出カテゴリすべてについて VoE 効果の総平均を計算しました。

結果は、わずか 50,000 個の例 (28 時間の視覚経験に相当) でトレーニングした後、Deepmind のモデルで堅牢な VoE 結果が得られたことを示しました。

図 6: PLATO はわずか 28 時間の視覚体験で強力な効果を示します。

一般化テスト: Deepmind は、直感的な物理的知識を探求するために設計された ADEPT データセットを使用します。図 7 に示すように、PLATO は 3 つの検出カテゴリすべてで明確な VoE 効果を示しています。

図 7: PLATO は、再トレーニングなしで、目に見えないオブジェクトやダイナミクスに対する堅牢性を示します。

詳細については、原文論文をご覧ください。

<<: クック氏は大量生産に資源を投入する気はなく、他の部門からも疑問視され、嘲笑されている。アップルの自動車製造への道は暗い。

>>: AIを赤ちゃんのように考えさせましょう！ DeepMindの「Plato」モデルがNature誌に掲載