AIはビデオを流暢に解釈できますか? Vista-LLaMAはこの「錯覚」の問題を解決します

近年、GPT、GLM、LLaMAなどの大規模言語モデルは自然言語処理の分野で大きな進歩を遂げており、ディープラーニング技術に基づいて複雑なテキストコンテンツを理解・生成できるようになりました。しかし、これらの機能をビデオコンテンツ理解の分野に拡張することは、まったく新しい課題です。ビデオには豊富で多様な視覚情報が含まれているだけでなく、時系列の動的な変化も含まれるため、大規模な言語モデルがビデオから情報を抽出するのはより複雑になります。

この課題に対応するため、 ByteDanceと浙江大学は共同で、信頼性の高いビデオ説明を出力できるマルチモーダル大規模言語モデルであるVista-LLaMAを提案しました。 Vista-LLaMA は、ビデオコンテンツの複雑さに対処するために特別に設計されており、ビデオフレームを正確な言語記述に効果的に変換できるため、ビデオコンテンツの分析と生成の品質が大幅に向上します。

論文ホームページ: https://jinxxian.github.io/Vista-LLaMA/

図1

技術革新の道

ビデオコンテンツを処理する際に、既存のマルチモーダルビジョンモデルと言語モデルは通常、ビデオフレームを一連のビジュアルトークンに変換し、それらを言語トークンと組み合わせてテキストを生成します。しかし、生成されたテキストの長さが長くなるにつれて、ビデオコンテンツの影響は徐々に弱まる傾向があり、生成されたテキストは元のビデオコンテンツからますます逸脱し、いわゆる「幻覚」現象が発生します。

Vista-LLaMA は、ビデオとテキスト間の複雑な相互作用を革新的な方法で処理することにより、従来のビデオ言語モデルの限界を打ち破ります。 Vista-LLaMA の核となる革新性は、視覚トークンと言語トークンを独自の方法で処理することにあります。他のモデルとは異なり、特に長いテキストでは、視覚トークンと言語トークンの間に等距離を維持することで、テキスト生成の偏りを効果的に回避します。この方法により、モデルによるビデオコンテンツの理解の深さと精度が大幅に向上します。

図2

Vista-LLaMA は、改良された注意メカニズムである視覚等距離トークン注意 (EDVT) を使用します。このメカニズムは、テキスト間の相対位置エンコーディングを保持しながら、視覚トークンとテキストトークンを処理するときに従来の相対位置エンコーディングを削除します。 EDVT メカニズムは、特定の関数を通じて隠し層の入力を処理し、視覚トークンのソースを効果的に区別します。

具体的には、まず入力をクエリ、キー、値のマッピングに変換し、次にクエリとキーの入力に回転位置エンコーディング (RoPE) を適用し、それぞれ RoPE ありと RoPE なしのアテンションウェイトを計算します。その後、2 つの注意重みは視覚トークンの有無に応じてマージされ、注意はソフトマックス関数を通じて正規化され、最後に注意重みに基づく線形マッピングを通じて表現が更新され、出力結果が生成されます。この革新により、マルチモーダル大規模言語モデルは、特に複雑なビデオシーンにおいて、ビデオの内容にさらに注意を払うことができ、主要な視覚要素を効果的にキャプチャして、テキスト生成の品質と関連性を向上させることができます。

図3

同時に、このモデルによって導入されたシリアル化されたビジュアルプロジェクターは、ビデオの時系列分析に新しい視点を提供します。現在のビデオフレームを処理するだけでなく、前のフレームの情報も活用できるため、ビデオコンテンツの一貫性と時間的論理が向上します。

ビジュアルプロジェクターの役割は、大規模な言語モデルがビジュアル入力とテキスト入力を融合して処理できるように、ビデオ機能を言語埋め込み空間にマッピングすることです。図 4 に示すように、初期の視覚プロジェクターでは通常、線形レイヤーまたはクエリトランスフォーマー (Q-Former) を使用して、フレーム機能を言語トークンに直接変換します。しかし、これらの方法では時間的な関係が無視されるため、言語モデルによるビデオの包括的な理解が制限されます。 Vista-LLaMA は、線形投影レイヤーを通じてビジュアルトークンの時間的コンテキストをエンコードするシリアル化されたビジュアルプロジェクターを導入し、ビデオの動的な変化を理解するモデルの能力を強化します。これは、ビデオコンテンツ分析の品質を向上させるために重要です。

図4

ベンチマーク結果

Vista-LLaMA は、複数のオープンソースのビデオ質問応答ベンチマークで優れたパフォーマンスを発揮します。ビデオ理解と言語生成能力を測定するための重要なベンチマークである NExT-QA および MSRVTT-QA テストで画期的なスコアを達成しました。ゼロショット NExT-QA テストでは、Vista-LLaMA は 60.7% の精度を達成しました。 MSRVTT-QA テストでは、現在のすべての SOTA 方式を上回る 60.5% の精度を達成しました。これらの結果は業界でも先進的なレベルであり、Video-ChatGPT や MovieChat などの他の SOTA モデルを大幅に上回っています。

図5

これらのテスト結果は、ビデオコンテンツの理解と説明の生成における Vista-LLaMA の効率性と精度を実証しています。Vista-LLaMA はビデオコンテンツを正確に理解して説明することができ、その強力な一般化能力を実証しています。これらの結果は、Vista-LLaMA が複雑なビデオコンテンツを理解する能力を実証するだけでなく、マルチモーダル言語処理の分野における Vista-LLaMA の主導的地位を証明しています。

データセット: CineClipQA

図6

Vista-LLaMA とともに、CineClipQA と呼ばれる新しいデータセットが提案されました。

CineClipQA には、さまざまなスタイルと物語技法を持つ 5 つの映画から厳選された 153 のビデオクリップが含まれています。各クリップは映画のストーリーの 1 つ以上の独自の部分を表現しており、16 個のカスタマイズされた質問が付随しており、合計 2,448 個の質問があります。質問は、システムプロンプトと質問の 2 つの部分に分かれています。

システムプロンプトは、現在のビデオクリップ内の主要なキャラクターに関する基本情報を提供し、必要に応じてキャラクターの最初のアクションに関するプロンプトを提供します。
問題は主に、認識、時間（予測）、空間（相互作用）、意図、知覚の 5 つのカテゴリに分類されます。具体的には、認識には場所と行動に関する質問が含まれます。時間性には、次の行動、前の行動、同時行動、予測された行動に関する質問が含まれます。空間性には、物体と人々の間の空間情報に関する質問が含まれます。意図には、行動の目的に関する 3 つの同様の質問が含まれます。最後に、知覚では感情認識を調べ、「どのように」(方法、態度など) を尋ねます。

この研究では、16 種類すべてについて詳細な説明と対応する例も提供しています。 CineClipQA データセットでは、Vista-LLaMA も優れたパフォーマンスを示しています。

図7

つまり、Vista-LLaMA が長いビデオコンテンツの処理にもたらす大きな利点は、ビデオ分析の分野に新しいソリューションフレームワークをもたらし、ビデオ処理とコンテンツ作成における人工知能の開発を促進し、将来的にはマルチモーダルインタラクションと自動コンテンツ生成の分野に幅広い機会をもたらすことを告げています。

詳細については、プロジェクトページ[https://jinxxian.github.io/Vista-LLaMA]をご覧ください。

ByteDanceのインテリジェントクリエーションチームについて

知能創造チームは、ByteDanceのオーディオとビデオの革新技術とビジネスミドルプラットフォームであり、コンピュータービジョン、グラフィックス、音声、撮影と編集、特殊効果、クライアントとサーバーエンジニアリングなどの技術分野をカバーしています。ByteDanceの豊富なビジネスシナリオ、インフラストラクチャリソース、良好な技術協力環境の助けを借りて、最先端のアルゴリズム-エンジニアリングシステム-製品のリンク全体のクローズドループを実現し、社内のビジネスラインと外部の協力顧客に、業界最先端のコンテンツ理解、コンテンツ作成、インタラクティブな体験と消費機能、およびさまざまな形式での業界ソリューションを提供することを目指しています。

現在、知能創造チームはByteDance傘下のクラウドサービスプラットフォーム「Volcano Engine」を通じて、企業向けに技術力とサービスを開放している。

<<: これほどリアルな効果を生み出すために、原作者を何人食べなければならなかったのですか?文生図はビジュアル「盗作」の疑い

>>: 素晴らしい瞬間を振り返りましょう！ IEEE Spectrumが2023年の最もホットなAIストーリーをレビュー