Googleの華博士がICCV2021で新モデルを発表、卵を泡立てるだけでパンケーキを作りたいかどうかがわかる

機械学習モデルが現実世界でますます使用され、導入されるようになると、AI の意思決定は人々の日常生活における意思決定を支援するためにも使用されるようになります。

コンピュータービジョンの分野における意思決定プロセスでは、予測が常に中心的な問題となっています。

さまざまな時間スケールで将来について合理的な予測を行う方法も、これらの機械モデルの重要な機能の 1 つです。この機能により、モデルは他のモデルの動作を含む周囲の世界の変化を予測し、次のアクションと決定を計画できます。

[[436641]]

さらに重要なのは、将来予測を成功させるには、環境内のオブジェクトにおける意味のある変化を捉えることと、意思決定や予測を行うために環境が時間の経過とともにどのように変化するかを理解することの両方が必要であるということです。

コンピュータービジョンにおける将来予測の取り組みは、主にその出力の形式に制限されており、出力は画像のピクセルまたは手動で事前定義されたラベル (たとえば、誰かが歩き続けるか、座るかなどを予測する) になります。

これらの予測は詳細すぎるため、完全に予測することはできず、現実世界の豊富な情報を効果的に活用することができません。言い換えれば、モデルが「ジャンプ行動」を予測する時点で、なぜジャンプするのか、何をジャンプするのかを知らなければ、予測は成功せず、結果は基本的にランダムな推測になってしまいます。

さらに、ごくわずかな例外を除いて、以前のモデルは将来の固定オフセットで予測を行うように設計されており、動的な時間間隔で予測を行うことはできませんが、意味のある将来の状態がいつ発生するかはほとんどわからないため、これは制限的な仮定です。

アイスクリームを作るビデオでは、ビデオ内のクリームからアイスクリームまでの時間間隔は 35 秒なので、この変化を予測するモデルは 35 秒先を予測する必要があります。しかし、この間隔は、さまざまな行動や動画によって大きく異なります。たとえば、ブロガーの中には、アイスクリームをより細かく作るために、より多くの時間と時間を費やす人もいますが、これは、アイスクリームが将来のいつでも作られる可能性があることを意味します。

さらに、このようなビデオのフレームごとの注釈は、数百万単位で大規模に収集することができ、多くの教育ビデオには、ビデオ全体にわたって簡潔で一般的な説明を提供する音声の書き起こしが含まれていることがよくあります。このデータソースは、モデルがビデオの重要な部分に焦点を当てるようにガイドし、手動で注釈を付けることなく、将来のイベントに関する柔軟なデータ駆動型の予測を可能にします。

このアイデアに基づいて、Google は ICCV 2021 で記事を発表し、大規模なラベルなしの人間活動データセットを使用した自己教師あり学習法を提案しました。開発されたモデルは高度に抽象化されており、任意の時間間隔で将来の長期予測を行うことができ、コンテキストに基づいて将来の長期予測を選択できます。

このモデルには、マルチモーダルサイクル一貫性 (MMCC) 目的関数があり、物語形式の教育ビデオを使用して強力な将来予測モデルを学習できます。研究者らはまた、微調整なしで MMCC をさまざまな困難なタスクに適用する方法を示し、その予測に関する定量的なテスト実験を実施しました。

この記事の著者であるチェン・サンは、Google とブラウン大学出身です。現在はブラウン大学でコンピューターサイエンスの助教授を務め、コンピュータービジョン、機械学習、人工知能を研究しています。また、Google Research の研究科学者でもあります。

彼は2016年に南カリフォルニア大学でラム・ネヴァティア教授の指導の下、博士号を取得し、2011年に清華大学でコンピューターサイエンスの学士号を取得しました。

進行中の研究プロジェクトには、ラベルのないビデオからのマルチモーダル表現と視覚コミュニケーションの学習、人間の活動、オブジェクト、およびそれらの時間の経過に伴う相互作用の認識、および具現化されたエージェントへの表現の転送が含まれます。

この研究は主に、将来予測の 3 つの中核的な問題を取り上げています。

1. ビデオ内の時間的関係を手動で注釈付けすることは非常に時間がかかり、労力もかかるため、ラベルの正確性を定義することは困難です。したがって、実用的なアプリケーションを実現するには、モデルが大量のラベルなしデータからイベントの変換を自律的に学習して発見できる必要があります。

2. 現実世界における複雑で長期的なイベント変換をエンコードするには、画像内のピクセルだけではなく、抽象的な潜在表現によく見られる高レベルの概念を学習する必要があります。

3. 時系列におけるイベントの変換はコンテキストに大きく依存するため、モデルはさまざまな時間間隔で将来を予測できる必要があります。

これらのニーズを満たすために、研究者らは新しい自己教師ありトレーニング目的関数 MMCC と、この問題を解決するための表現を学習するモデルを導入しました。

モデルは、物語ビデオのサンプルフレームから開始して、すべての物語テキスト内で関連する言語発話を見つける方法を学習します。視覚的モダリティとテキストモダリティの両方を組み合わせることで、モデルはビデオ全体を使用して、潜在的な将来のイベントを予測し、フレームの対応する言語説明を推定する方法を学習し、同様の方法で過去のフレームの機能を予測することを学習できます。

サイクル制約では、最終的なモデル予測が開始フレームと等しいことが要求されます。

一方、モデルは入力データがどのモダリティから来ているのかわからないため、視覚と言語を共同で操作する必要があり、将来の予測のための低レベルのフレームワークを選択することはできません。

モデルは、すべての視覚ノードとテキストノードの埋め込みを学習し、開始ノードに対応する他のモダリティのクロスモーダルノードを慎重に計算します。両方のノードの表現は完全に接続されたレイヤーに変換され、初期モダリティでの注意を使用して将来のフレームを予測します。次に、逆方向のプロセスが繰り返され、開始ノードを予測してモデルの最終出力をトレーニングすることでモデル損失が完了し、サイクルが終了します。

実験部分では、これまでのベンチマークのほとんどが固定カテゴリと時間オフセットによる教師あり行動予測に焦点を当てているため、本論文では研究者らがさまざまな方法を評価するため、一連の新しい定性的および定量的実験を設計しました。

まずデータですが、研究者たちは制約のない現実世界のビデオデータでモデルをトレーニングしました。私たちは、約 123 万本のビデオと自動的に抽出された音声トランスクリプトを含む HowTo100M データセットのサブセットを使用します。このデータセット内のビデオは、主題領域ごとに大まかに分類されており、データセット内のビデオの約 4 分の 1 に相当する「レシピ」として分類されたビデオのみが使用されます。

338,033 本のレシピ動画のうち、80% がトレーニングセット、15% が検証セット、5% がテストセットに含まれています。レシピ動画には、複雑なオブジェクト、操作、状態遷移が豊富に含まれており、このサブセットにより、開発者はモデルをより速くトレーニングできます。

より制御されたテストを実施するために、研究者らは、タスク固有の注釈が付いた類似のビデオを含む CrossTask データセットを使用しました。

すべてのビデオは、パンケーキを作るなどのタスクに関連しており、各タスクには、豊富で長期的な相互依存関係を持つ高レベルのサブタスクの定義済みシーケンスがあります。たとえば、ボウルに卵を割り入れてシロップを加える前に、ボウルで生地を混ぜる必要があります。

モデルのアクション予測能力は、TOP-K リコールメトリックを使用して評価されます。このメトリックは、モデルの正しい未来予測能力を測定します (数値が高いほど優れています)。

MMCC の場合、ビデオ全体の時間の経過に伴うイベントの意味のある変化を判断するために、研究者はモデルの予測に基づいてビデオ内のフレームの各ペアの可能な遷移スコアを定義しました。予測されたフレームが実際のフレームに近いほど、スコアが高くなります。

<<: 人工知能: ナノスケールでの細胞構造の発見

>>: Yan Shuicheng氏は、Transformerのパワーがそのアーキテクチャから生まれることを証明する「恥ずかしいほどシンプルな」モデルを公開した。