メタバースの錬金術には物理の基本法則が必要です! Nvidia副社長：現実世界のデータトレーニングは不要

次のことは直感に反するように思えるかもしれません:

AI が現実世界のアプリケーションシナリオに適切に対応できるようにするには、現実世界のデータをトレーニングデータセットとして使用しないことが最善です。

はい、合成データは AI の真の可能性を引き出す鍵です。

名前が示すように、合成データは現実世界から収集されたものではなく、人工的に生成されます。

しかし、合成データの使用には常に論争が伴い、業界ではそれが現実世界に正確に対応できるのか、訓練された AI が実際の状況に対処できるのかという疑問が常にありました。

これに対して、シミュレーション技術とOmniverseエンジンの構築を担当するNVIDIAの副社長、Rev Lebaredian氏が独占インタビューで答えた。

物理シミュレーション

2021 年 11 月、Huang 氏は GTC カンファレンスで Omniverse Replicator を発表しました。これは、物理シミュレーション用の合成データを生成し、ニューラルネットワークのトレーニングに使用できる強力な合成データ生成エンジンです。

「シミュレーション」に関して言えば、私たちが最もよく目にするのは実はゲームであり、これに現実世界の物理法則をいくつか加えることで、よりリアルな体験が可能になります。

たとえば、ダイナマイトパックを使用して壁を爆破すると、大きな音とともに壁が崩壊します。しかし、壁がまったく動かないのであれば、また手抜きが行われたのではないかと思わずにはいられません。

もちろん、ほとんどの場合、ゲームは真の 100% 復元を達成しようとはしません。結局のところ、現実世界をシミュレートするには、計算能力を大量に消費してしまいます。

さらに、ゲームは究極的にはファンタジー世界のシミュレーションであり、楽しむことが目的であるため、現実世界の物理的な正確さに従うことは必ずしも良いことではありません。

これまでゲーム内での AI のトレーニングに関する研究は数多く行われてきましたが、その結果は明らかに限られています。

Omniverse の目標は、現実の物理法則に完全に準拠したシミュレートされた世界を復元することです。

ここで言うシミュレーションとは、剛体物理学、軟体物理学、流体力学、その他の関連するものを使用して、原子が互いにどのように相互作用するかをシミュレートすることです。

たとえば、光が物体の表面とどのように相互作用して、最終的に私たちが通常目にする外観を作り出すかなどです。

そして、現実世界を十分にシミュレートできるようになると、それに応じた「超能力」を獲得します。

未来を予測する

たとえば、仮想世界で現在いる部屋を 1:1 スケールで複製すると、鳥瞰図を使用して行きたい場所を選択し、そこに「テレポート」することができます。

例えば、火星にセンサーを設置して現実世界の情報を取得し、それを仮想世界に再現することで、いつでも実際に火星での生活を体験することができます。

そして、これは最も驚くべきことではありません。

十分に正確なシミュレーションがあれば、特定の初期条件を設定するだけで未来を予測できるようになります。

もう一度この部屋を例に挙げてみましょう。私は携帯電話を掲げています。この時点で、実際に手を離さなくても、手を離した瞬間に何が起こるかをシミュレートできます。

当然、重力により携帯電話は落下します。

シミュレーションの世界では、この携帯電話がどのように落ちるか、地面に落ちた後に画面が壊れるかどうかなどを予測できます。

つまり、さまざまな決定や条件下で生成された結果を無制限にテストし、考えられるすべての「並行世界」を探索することもできます。

これに基づいて適切な最適化を行うことができれば、最良の未来を見つけることができます。

AI のトレーニングにまだ実際のデータを使用していますか?

AI 業界が急成長しているこの新しい時代では、大学院生がラップトップだけで高度なソフトウェアを作成することは不可能です。

高度なアルゴリズムの開発には、膨大なデータを持つ巨大なシステムでのトレーニングが必要であると言えます。

そのため、最近では「データは新時代の石油である」という格言があります。

データ収集に便利な大手テクノロジー企業が有利になっているようです。

しかし、企業が現在収集しているビッグデータは、将来生み出される最先端のAIにはほとんど役に立たないというのが実情です。

私は2017年の国際コンピュータグラフィックス会議（SIGGRAPH 2017）でこれに気づきました。

当時、私たちはドミノをプレイできるロボットと、ロボットをトレーニングするための AI モデルをいくつか開発しました。最も基本的なものは、テーブル上のドミノを検出し、ドミノの種類と点の数からドミノの方向を区別できるコンピュータービジョンモデルです。

Google を使えば十分なトレーニングデータをいつでも見つけることができますよね?

もちろん、Google 画像検索では大量のドミノ画像が見つかりますが、次のような画像も見つかります。

これらの画像にはラベルが付いていないため、各画像内の各ドミノに 1 つずつラベルを付けるには、多くの手作業が必要です。
ラベル付けした後でも、データに必要な多様性が欠けていることがわかります。

実際のシーンに適用されるパターン認識アルゴリズムが十分に堅牢であるためには、さまざまな照明条件やカメラ/センサーの状態でも正常に実行できる必要があります。ドミノを識別するアルゴリズムは、あらゆる材質のドミノを正しく区別できなければなりません。

したがって、このような単純なトレーニング要件であっても、必要な十分なデータは存在しません。

実際に本当に必要なデータを収集したい場合は、まず何百もの異なるドミノデッキを購入し、異なるカメラを使用して異なる照明条件下で撮影する必要があります。

そこで 2017 年に、ゲームエンジンを直接使用してランダムドミノジェネレーターをエンコードし、それを使用してすべてのトレーニングデータを生成し、堅牢な画像認識モデルを一晩でトレーニングしました。

このモデルは、会議会場のさまざまなカメラで撮影された画像を処理した後も、満足のいく動作を示しました。

これは単なる簡単な例です。自動運転車や完全自律型マシンなどのはるかに複雑なシナリオでは、必要な量、精度、多様性のトレーニングデータをすべて現実世界から収集することは不可能です。

物理的に十分に正確な AI トレーニングデータを生成できない限り、さらなる進歩の余地はありません。

訓練に必要な危険な状況はカバーできますか？

Omniverse では、昼と夜をいつでも切り替えることができ、氷や雪の環境や急カーブなどのシナリオをシミュレートできます。

歩行者や動物も、現実世界では決して起こらないような危険な状況に陥ることがあります。

実際に人や動物を危険にさらしたい人は誰もいませんが、自動運転車メーカーは、さまざまな危険で限界的な環境で自社製品がどのように機能するかを理解する必要があります。

そのため、仮想世界で AI をトレーニングすることは誰にとっても便利です。

合成データは最良のトレーニング戦略でしょうか?

現在、ほとんどの AI は「教師あり学習」によって作成されています。たとえば、ニューラルネットワーク AI に猫と犬を区別させるには、まずラベル付きの画像を使用して AI に猫と犬が何であるかを教え、その後、新しいラベルのない画像に適用する必要があります。

AI のトレーニングに使用される合成データは、超高精度のデータ注釈が組み込まれているため、「ベンチマーク真実データ」として使用できます。

自動運転車のシナリオでは、ユーザーは現実世界のセンサーを通じて、道路上のさまざまな車両や歩行者の 3D 位置をスマートカーに認識させる必要があります。しかし実際には、センサーが AI に提供する情報は、ピクセルのみで構成される 2D 画像です。

AI に物体の 3D 情報を推測するようにトレーニングする場合、まず 2D 画像内の物体の周囲に枠を描き、「これは特定のセンサーの特定のレンズに基づいて得られた特定の物体の相対距離です」と AI に伝える必要があります。

ただし、Omniverse でデータを合成する場合は、この手順をスキップして、オブジェクトの 3D 位置情報を完全な物理的精度で直接取得できるため、人為的に導入されたデータによって生じる誤った注釈を回避できます。また、ニューラルネットワークをトレーニングして、よりスマートで正確な結果を得るためにも使用できます。