Google AI ビデオがまた大ヒット!オールラウンドなユニバーサルビジュアルエンコーダーであるVideoPrismに30のSOTAパフォーマンスアップデートが実装されました

Google AI ビデオがまた大ヒット!オールラウンドなユニバーサルビジュアルエンコーダーであるVideoPrismに30のSOTAパフォーマンスアップデートが実装されました

AI動画モデルSoraが人気を博して以降、MetaやGoogleなどの大手企業もOpenAIに追いつくべく研究を開始した。

最近、Google チームの研究者は、ユニバーサル ビデオ エンコーダーである VideoPrism を提案しました。

単一の固定モデルでさまざまなビデオ理解タスクを処理できます。

写真

論文アドレス: https://arxiv.org/pdf/2402.13217.pdf

たとえば、VideoPrism は、以下のビデオでろうそくを吹き消している人物を分類して位置を特定できます。

写真

ビデオテキスト検索: テキストコンテンツに基づいて、ビデオ内の対応するコンテンツを検索できます。

写真

たとえば、小さな女の子が積み木で遊んでいる次のビデオについて説明します。

Q&Aセッションもご利用いただけます。

- 彼女は緑のブロックの上に何色のブロックを置きましたか?

- 紫。

写真

研究者らは、3,600 万の高品質ビデオキャプションペアと、ノイズの多い並列テキスト (ASR トランスクリプションなど) を含む 5 億 8,200 万のビデオクリップの異種コーパスで VideoPrism を事前トレーニングしました。

VideoPrism が 33 のビデオ理解ベンチマークのうち 30 の SOTA を更新したことは注目に値します。

写真

ユニバーサルビジュアルエンコーダー VideoPrism

現在、Video Grounded Models (ViFM) は、大規模なコーパスで新しい機能を解き放つ大きな可能性を秘めています。

これまでの研究により、一般的なビデオ理解は大きく進歩しましたが、真の「画期的なビデオ モデル」を構築することは、依然として困難な目標です。

これに応えて、Google は、分類、ローカリゼーション、検索、字幕作成、質問応答 (QA) など、さまざまなビデオ理解タスクを解決するために設計された汎用ビジュアル エンコーダーである VideoPrism をリリースしました。

VideoPrism は、神経科学や生態学などの科学分野の CV タスクだけでなく、CV データセットでも広範囲に評価されています。

単一の凍結モデルを使用することで、最小限の適合性で最先端のパフォーマンスが実現されます。

さらに、Google の研究者は、この固定エンコーダーの設定は、以前の研究を踏襲し、その実用性とビデオ モデルの微調整にかかる高い計算量とコストを考慮したものになっていると述べています。

写真

設計アーキテクチャ、2段階トレーニング法

VideoPrism の設計哲学は次のとおりです。

事前トレーニング データは、ベース モデル (FM) の基礎となります。ViFM の理想的な事前トレーニング データは、世界中のすべてのビデオの代表的なサンプルです。

このサンプルでは、​​ほとんどのビデオにコンテンツを説明する並列テキストがありません。

ただし、そのようなテキストでトレーニングすると、ビデオ空間に関する貴重な意味上の手がかりを提供できます。

したがって、事前トレーニング戦略では、利用可能なビデオとテキストのペアを最大限に活用しながら、主にビデオ パターンに焦点を当てる必要があります。

データに関しては、Google の研究者は、3,600 万の高品質なビデオ キャプションのペアと、ノイズの多い並列テキスト (ASR の書き起こし、生成されたキャプション、取得したテキストなど) を含む 5 億 8,200 万のビデオ クリップを収集することで、必要な事前トレーニング コーパスを概算しました。

写真

写真

モデリングの面では、著者らはまず、さまざまな品質のすべてのビデオとテキストのペアからセマンティックなビデオ埋め込みを比較学習します。

次に、広範なビデオのみのデータを活用して、意味的埋め込みをグローバルかつラベルごとに改良し、以下に説明するマスクされたビデオ モデリングを改善します。

自然言語での成功にもかかわらず、生の視覚信号にセマンティクスがないため、マスクされたデータのモデリングは CV にとって依然として困難です。

既存の研究では、間接的なセマンティクスを借用する(例えば、この課題に対処するために CLIP ガイド モデルや単語セグメンテーション、または潜在的セマンティクスを使用する)か、または暗黙的に一般化する(例えば、視覚パッチにラベルを付ける)ことによって、高いマスキング率と軽量デコーダーを組み合わせています。

上記のアイデアに基づいて、Google チームは事前トレーニング データに基づく 2 段階のアプローチを採用しました。

写真

最初の段階では、すべてのビデオとテキストのペアを使用して、ビデオ エンコーダーをテキスト エンコーダーと一致させるための対照学習が実行されます。

Google チームは、以前の研究に基づいて、対称クロスエントロピー損失の最小化を実行し、バッチ内のすべてのビデオとテキストのペアの類似度スコアを最小化しました。

空間エンコーディング モジュールは CoCa 画像モデルを使用して初期化され、WebLI は事前トレーニングに含まれています。

損失を計算する前に、ビデオ エンコーダーからの特徴が Multi-Head Attention Pooling (MAP) を介して集約されます。

この段階では、ビデオ エンコーダーは言語監視から豊富な視覚的セマンティクスを学習でき、結果として得られるモデルは第 2 段階のトレーニング用のセマンティック ビデオ埋め込みを提供します。

写真

第 2 段階では、エンコーダーが再度トレーニングされ、次の 2 つの改善が行われました。

- モデルは、マスクされていない入力ビデオパッチに基づいて、第1段階のビデオレベルのグローバル埋め込みとトークンベースの埋め込みを予測する必要がある。

- エンコーダーの出力トークンは、ショートカットの学習を避けるために、デコーダーに渡される前にランダムにシャッフルされます。

注目すべきは、研究者の事前トレーニングでは、ビデオのテキストによる説明とコンテキストの自己監督という 2 つの監督信号を活用し、VideoPrism が外観と動作中心のタスクで優れたパフォーマンスを発揮できるようにしていることです。

実際、これまでの研究では、ビデオのキャプションは主に外見の手がかりを明らかにし、文脈の監督は行動の学習に役立つことが示されています。

写真

実験結果

次に、研究者らは、VideoPrism の機能と汎用性を実証するために、さまざまなビデオ中心の理解タスクで VideoPrism を評価します。

主に以下の4つのカテゴリーに分かれます。

(1)一般的には分類と時空間的位置付けを含むビデオ理解のみ

(2)ゼロショットビデオテキスト検索

(3)ゼロショットビデオキャプション作成と品質検査

(4)科学分野における履歴書の課題

分類と時空間的位置特定

表 2 は、VideoGLUE でのフリーズド バックボーンの結果を示しています。

すべてのデータセットにおいて、VideoPrism はベースラインを大幅に上回ります。さらに、VideoPrism の基盤となるモデル サイズを ViT-B から ViT-g に増やすと、パフォーマンスが大幅に向上します。

注目すべきは、どのベースライン メソッドもすべてのベンチマークで 2 番目に優れた結果を達成していないことです。これは、以前のメソッドがビデオ理解の特定の側面を対象に開発された可能性があることを示唆しています。

そして、VideoPrism は、この幅広いタスクセットの改善を続けています。

この結果は、VideoPrism が、複数の粒度での意味、外観、およびモーション キュー、時空間情報、およびさまざまなビデオ ソース (Web ビデオやスクリプト パフォーマンスなど) に対する堅牢性など、さまざまなビデオ信号を 1 つのエンコーダーに統合していることを示しています。

写真

ゼロショットビデオテキスト検索と分類

表 3 と 4 は、それぞれビデオテキスト検索とビデオ分類の結果をまとめたものです。

VideoPrism のパフォーマンスは複数のベンチマークを更新し、困難なデータセットでは、VideoPrism は以前のテクノロジーに比べて大幅に改善されました。

写真

ベースモデル VideoPrism-B の結果のほとんどは、実際に既存の大規模モデルよりも優れています。

さらに、VideoPrism は、表 4 のドメイン内データと追加のモダリティ (オーディオなど) で事前トレーニングされたモデルと同等かそれ以上のパフォーマンスを発揮します。ゼロショット検索および分類タスクにおけるこれらの改善は、VideoPrism の強力な一般化機能を実証しています。

写真

ゼロショットビデオのキャプション作成と品質チェック

表5と表6は、それぞれゼロショットビデオキャプション作成とQAの結果を示しています。

モデル アーキテクチャがシンプルで、アダプター パラメーターの数が少ないにもかかわらず、最先端のモデルは依然として競争力があり、VATEX を除いて、視覚モデルと言語モデルをフリーズするためのトップ メソッドの 1 つにランクされています。

結果は、VideoPrism エンコーダーがビデオから言語への生成タスクにうまく一般化できることを示しています。

写真

科学分野の履歴書の課題

Generic ViFM は、すべての評価にわたって共有のフリーズされたエンコーダーを使用し、単一のタスクに特化したドメイン固有のモデルに匹敵するパフォーマンスを実現します。

特に、VideoPrism は一般的に最高のパフォーマンスを発揮し、ベーススケール モデルを使用したドメイン エキスパート モデルよりも優れています。

より大きなモデルにスケーリングすると、すべてのデータセットのパフォーマンスがさらに向上します。これらの結果は、ViFM がさまざまな分野でビデオ分析を大幅に加速する可能性を秘めていることを示しています。

アブレーション研究

図4はアブレーションの結果を示しています。特に、VideoPrism の SSv2 に対する継続的な改善は、ビデオのモーション理解を向上させるデータ管理とモデル設計の取り組みの有効性を実証しています。

ベースラインはすでに K400 で競争力のある結果を達成していますが、提案されているグローバル蒸留とトークンシャッフルにより精度がさらに向上します。

写真

参考文献:

出典: http://arxiv.org/pdf/2402.13217.pdf

https://blog.research.google/2024/02/videoprism-foundational-visual-encoder.html

<<:  オープンソースの Gemma モデル: Google の言語の奇跡。命令チューニング、低ランク適応、Switch Transformer を使用して小さなモデルで遊ぶことができます。

>>:  人工知能、機械学習、ディープラーニングとは、いったい何なのでしょうか?

ブログ    
ブログ    

推薦する

...

...

「未来、人類、そして人工知能」についての白熱した議論です

[51CTO.comより引用] モバイルインターネット、モノのインターネット、ビッグデータ、人工知能...

海外メディア:マスク氏はxAIがOpenAIに勝つと夢想しているが、わずか11人の研究者に頼るのは難しすぎる

7月13日、イーロン・マスク氏が新たに設立した人工知能企業xAIは、「宇宙を理解する」ことができ、O...

デンマークのAIモデルは保険会社よりも正確に死亡率を予測し、乱用を懸念

12月19日、デンマーク工科大学のスニ・レーマン・ヨルゲンセン氏と彼のチームは、保険業界で使用されて...

...

...

1760億のパラメータを持つBLOOMZの推論、パフォーマンスレイテンシはわずか3.7秒

大規模言語モデル (LLM) のサイズが大きくなるにつれて、これらのモデルを本番環境で推論に導入して...

普通のプログラマーがAIを活用する方法

[[187452]]現在、人工知能はますます人気が高まっている分野となっています。普通のプログラマー...

プラスチックチップを1個1セント未満で製造

あなたの周りの物体が知性に満ちていると想像してください。包帯、バナナの皮、ボトルなどはすべて知性を持...

クラウド コンピューティングの限界: エッジでの機械学習が必要な理由

機械学習には高い処理要件があり、通信コストがかかることから、最終的にはエッジ(スマートフォン)で動作...

テルアビブ大学は、SOTAメソッドとアーキテクチャの新たな進歩を完全に理解するためにStyleGANを要約しました。

GAN の高解像度画像を生成する能力は、画像合成および処理の分野に革命をもたらしています。 201...

ファーウェイが推進する「マシンビジョン」はインダストリー4.0成功の鍵となるのか?

最近、「新インフラ」や「デジタルインフラ」がホットワードとなっている。新インフラの一つである「産業イ...

時代を先取り: パーソナライズされたマーケティング: 人工知能がカスタマー サービス業界にもたらす変化

それ以来、電子メール マーケティングは存在し続けています。私たちは皆、Google で電子メール マ...