AIは近い将来自己認識できるようになるのでしょうか? Facebook がメタバースへの扉を開く「Ego4D」を発表

ある日、ヘルメットをかぶると、SFのような美しい世界が目の前に浮かび上がるのを想像したことはありませんか？

[[429182]]

映画『アイアンマン』では、トニー・スタークが機械の鎧を着てヘルメットを閉じるたびに、スーパー人工知能執事ジャービスが彼の前に現れ、状況を分析するのを手伝います。

アイアンマンのヘルメットをかぶったジャービスは実際に一人称視点で世界を理解しているので、映画のような没入感をもたらすでしょう。

将来的には、拡張現実（AR）グラスや仮想現実（VR）ヘッドセットなどのデバイスが、日常生活においてスマートフォンと同じくらい一般的になるだろう。

拡張現実デバイスが、ドラムのレッスン中にスティックの持ち方を正確に示したり、レシピを案内したり、失くした鍵を探すのを手伝ったり、ホログラムのように思い出を呼び出したりすることを想像してみてください。

これらの新しいテクノロジーを実現するには、AI が人間と同じように一人称視点で世界を理解し、対話する必要があります。これは研究界では一人称中心の視覚認識と呼ばれることがよくあります。

しかし、今日のコンピュータービジョン (CV) システムは数百万枚の写真やビデオから学習しており、急速な開発と有望な研究の進歩にもかかわらず、これらの写真やビデオはすべて第三者の視点から撮影されており、カメラの視点はアクションの観客の視点にすぎません。

えーと。。。アイアンマンシリーズの映画はすべて終了しました。一人称視点で世界を理解するジャービスのようなAIが、現実世界の拡張現実デバイスに登場するのはいつになるのでしょうか。

心配しないでください、希望はあります！

Ego4D プロジェクト

Facebook AIは2021年に、一人称視覚中心知覚の分野における研究課題に取り組む野心的な長期プロジェクトである「Ego4D」（Egocentric 4D Perception）プログラムの開始を発表します。

「Ego4D」（Egocentric 4D Perception）は、これまでにない多様性を備えた大規模な一人称視点の視覚中心のデータセットです。これは、世界 9 か国 74 か所の 855 人の参加者から収集された 3,025 時間のビデオで構成されています。

このプロジェクトでは 88 人の研究者が協力し、データセットのサイズを 1 桁大きく拡大して他のどのプロジェクトよりも 20 倍以上の大きさにし、11 月末にダウンロードできるようになります。

AIにも「一人称視点」を体験させよう

たとえば、ジェットコースターに乗ると、アドレナリンが放出されてスリルを味わうことができます。下の人たちは困惑しているように見えました。

人工知能はさらに混乱します... CV システムをジェットコースターに結び付けると、おそらく何を見るべきか分からなくなるでしょう。これは、地上の観客の視点からジェットコースターの写真やビデオを何十万枚も見た後でも当てはまります。

AIが一人称視点で自転車の部品を「信号機」として認識

「AIシステムが人間と同じように世界とやりとりできるようになるには、AI分野が一人称知覚というまったく新しいパラダイムへと進化する必要がある」とFacebookの主任研究科学者、クリステン・グローマン氏は言う。「これは、リアルタイムの動き、やりとり、多感覚観察という文脈で、人間の目を通して日常生活の活動を理解できるようにAIに教えることを意味する」

そこでFacebook AIは、「Ego4D」で一人称視点の視覚体験を中心とした5つのベンチマークチャレンジを公開した。

ねえ、私の携帯を見ましたか？携帯がまた見つからない！

見覚えがあるでしょう？

Ego4D が解決したい最初の問題は、エピソード記憶です。

AI がカメラ装着者の日常生活を記録した一人称視点中心のビデオでトレーニングされると、過去の一人称視点中心のビデオから重要な瞬間を取得して個人の記憶を拡張する方法を学習できるようになります。

「子どものお気に入りのテディベアをどこに置いたか？」のような視覚的なクエリ、「砂糖を何カップ入れたか？」のようなテキストクエリ、「犬と遊んだのはいつ？」のようなイベントクエリなど、さまざまな自由形式の質問を AI に尋ねることができます。

これを実現するには、モデルが質問に答え、過去のビデオフレーム内での位置を特定し、さらに 3 次元の空間方向、時間、イベントの詳細などの情報をメモリ内に提供できる必要があります。

おっと、次は何をすればいいんだろう？

Ego4D が解決する 2 番目の問題は予測です。次に何をすべきでしょうか?

AI は、装着者の行動がその人の将来の状態にどのような影響を与えるかを理解できます。たとえば、その人がどこに移動するか、どのような物体に触れるか、次にどのような活動に従事するかを理解できます。

行動を予測するには、すでに起こったことを認識するだけでなく、将来を見据えて次の動きを予測することも必要です。これにより、AI システムはその瞬間に役立つガイダンスを提供できるようになります。

たとえば、鍋からスープを出そうとすると、AI アシスタントがすぐに「ちょっと待ってください。塩を入れずにどうやって食べられるんですか?」と教えてくれます。

私は何をしていますか、そしてどのように行うべきですか?

手や物体の操作も難しい点の 1 つです。AI は私が何を行っているか、どのように行うかを理解する必要があるためです。

手が物体とどのように相互作用するかを学習することは、AI が私たちの日常生活を導くために非常に重要です。 AI は、一人称の人間と物体の相互作用を検出し、把握を識別し、物体の状態変化を検出する必要があります。この時、AIロボットは映像で観察した人間の経験を要約し、独自の経験を獲得することができます。

つまり、レシピを調理しているときに、AI アシスタントが必要な材料や最初に行う必要があることを案内し、すでに行った作業を理解し、「脳の休憩時間」のあらゆる瞬間をガイドしてくれるのです。

彼は今何を言ったのですか、いつ言ったのですか?

人間は音を使って世界を理解することができ、将来の人工知能もこの種の視聴覚のダイアライゼーションを学習する必要があるでしょう。

重要な授業を受けているのに、両親からのテキストメッセージに気を取られている場合は、AI に「教授がレポートを回収した後、明日は何と言うでしょうか?」と尋ねることができます。

誰とどのようにやりとりしているのか?

ソーシャルインタラクションは、Ego4D が実現したいと考えている最後の方向性です。

[[429189]]

視覚的および音声的な手がかりを認識することに加えて、社会的相互作用を理解することがスマート AI アシスタントの中核となります。社会的に知的な AI は、誰が誰と話しているか、誰が誰をフォローしているかを理解します。

そのため、次回ディナーパーティーに参加するときには、たとえ騒がしくても、AI アシスタントがテーブルの向こう側にいる相手の話に集中できるようにサポートしてくれます。

これらのベンチマーク課題はすべて、一人称視点の視覚中心の AI の基本的な構成要素であり、これにより AI は現実世界だけでなくメタバースでも理解し、対話できるようになり、より便利な AI アシスタントやその他の将来のイノベーションの基盤が形成されます。

大規模でクリーンなデータセット

ベンチマークとデータセットは、歴史的に AI 業界におけるイノベーションの重要な触媒であることが証明されています。結局のところ、画像内のほぼすべてのオブジェクトを認識できる今日の CV システムは、MNIST、COCO、ImageNet などのデータセットとベンチマークに基づいて構築されており、研究者に現実世界の画像を研究するためのテストベッドを提供しています。

しかし、自己中心的な認識は全く新しい領域です。昨日のツールでは明日のイノベーションを構築することはできません。 Ego4D のこれまでにない規模と多様性は、次世代のインテリジェント AI システムの導入に極めて重要です。

Ego4D データセットは、地理的範囲、シナリオ、参加者、キャプチャモードが異なります。データは、GoPro、Vuzix Blade など、さまざまな市販のヘッドマウントカメラを使用しても取得されました。

Ego4D の機能には、ビデオに加えて、3D スキャン、オーディオ、複数の同期されたウェアラブルカメラなど、他の形式のデータを提供するものもあります。

Ego4D データセットには、有名なカーネギーメロン大学、ジョージア工科大学、東京大学、シンガポール国立大学など、多くの大学から寄稿者が集まっています。

参加者は、食料品の買い物、料理、ゲームをしながらの会話、家族や友人とのグループ活動など、日常のシーンの約 8 分間のクリップを録画するように求められました。

Ego4D は、カメラを装着した人が特定の環境でどこを見ているか、手 (および目の前の物体) で何をしているか、そして他の人とどのようにやり取りしているかを一人称視点で記録します。これらのレンズの一部は、3D スキャン、慣性測定ユニットからのモーションデータ、視線追跡と組み合わせることもできます。

次は何ですか？

Facebook AI は、Ego4D プロジェクトを通じて、よりスマートでインタラクティブかつ柔軟なコンピュータービジョンシステムを構築する新たな道を切り開こうとしています。

AI が人々の通常の生活についてより深く理解するにつれて、これまで不可能だった方法でインタラクティブな体験を文脈に合わせてパーソナライズできるようになります。

「Ego4Dにより、AIは物理的世界と社会世界に根ざした知識を、そこに暮らす人々の一人称視点で獲得することが可能になる」とグローマン氏は語った。

「今後、AIは周囲の世界をより深く理解するだけでなく、いつの日かパーソナライズ化されるようになるかもしれません。例えば、あなたの好きなコーヒーを知っていたり、次の家族旅行の行き方を教えてくれたりといったことです。」

Ego4D のベースラインサポートとまったく新しいデータセットのトレーニングを組み合わせることで、AI アシスタントは、同僚との最近の会話から重要な情報を思い出すのを手伝ったり、新しい夕食のレシピの作成をガイドしたりするなど、非常にユニークで有意義な方法で多くの価値を提供できる可能性があります。

Facebook は、この仕事から得られる価値が私たちを将来の「現実」へと導くだろうと述べている。

クイーン・メアリー大学の人工知能研究者マイク・クック氏は、「良い面としては、少なくとも現時点では、これは本当に素晴らしい大規模なデータセットだ」と語った。

「しかし、これは実際に AI の差し迫った課題や問題を解決するものではありません。ウェアラブルカメラを販売したいテクノロジー企業でない限りは。これは Facebook の将来の計画についてより多くを語っていますが、彼らが資金を注ぎ込んでいるからといって、必ずしも重要になるというわけではありません。」

<<: 中国語と英語で最大のAIモデルの世界記録が樹立され、大規模モデル競争の新たなステージが到来

>>: AI技術がピカソの隠された絵画の発見を助ける