AIはビデオを流暢に解釈できますか? Vista-LLaMAはこの「錯覚」の問題を解決します

AIはビデオを流暢に解釈できますか? Vista-LLaMAはこの「錯覚」の問題を解決します

近年、GPT、GLM、LLaMAなどの大規模言語モデルは自然言語処理の分野で大きな進歩を遂げており、ディープラーニング技術に基づいて複雑なテキストコンテンツを理解・生成できるようになりました。しかし、これらの機能をビデオ コンテンツ理解の分野に拡張することは、まったく新しい課題です。ビデオには豊富で多様な視覚情報が含まれているだけでなく、時系列の動的な変化も含まれるため、大規模な言語モデルがビデオから情報を抽出するのはより複雑になります。

この課題に対応するため、 ByteDanceと浙江大学は共同で、信頼性の高いビデオ説明を出力できるマルチモーダル大規模言語モデルであるVista-LLaMAを提案しました。 Vista-LLaMA は、ビデオ コンテンツの複雑さに対処するために特別に設計されており、ビデオ フレームを正確な言語記述に効果的に変換できるため、ビデオ コンテンツの分析と生成の品質が大幅に向上します。

論文ホームページ: https://jinxxian.github.io/Vista-LLaMA/

図1

技術革新の道

ビデオ コンテンツを処理する際に、既存のマルチモーダル ビジョン モデルと言語モデルは通常、ビデオ フレームを一連のビジュアル トークンに変換し、それらを言語トークンと組み合わせてテキストを生成します。しかし、生成されたテキストの長さが長くなるにつれて、ビデオコンテンツの影響は徐々に弱まる傾向があり、生成されたテキストは元のビデオコンテンツからますます逸脱し、いわゆる「幻覚」現象が発生します。

Vista-LLaMA は、ビデオとテキスト間の複雑な相互作用を革新的な方法で処理することにより、従来のビデオ言語モデルの限界を打ち破ります。 Vista-LLaMA の核となる革新性は、視覚トークンと言語トークンを独自の方法で処理することにあります。他のモデルとは異なり、特に長いテキストでは、視覚トークンと言語トークンの間に等距離を維持することで、テキスト生成の偏りを効果的に回避します。この方法により、モデルによるビデオ コンテンツの理解の深さと精度が大幅に向上します。

図2

Vista-LLaMA は、改良された注意メカニズムである視覚等距離トークン注意 (EDVT) を使用します。このメカニズムは、テキスト間の相対位置エンコーディングを保持しながら、視覚トークンとテキスト トークンを処理するときに従来の相対位置エンコーディングを削除します。 EDVT メカニズムは、特定の関数を通じて隠し層の入力を処理し、視覚トークンのソースを効果的に区別します。

具体的には、まず入力をクエリ、キー、値のマッピングに変換し、次にクエリとキーの入力に回転位置エンコーディング (RoPE) を適用し、それぞれ RoPE ありと RoPE なしのアテンション ウェイトを計算します。その後、2 つの注意重みは視覚トークンの有無に応じてマージされ、注意はソフトマックス関数を通じて正規化され、最後に注意重みに基づく線形マッピングを通じて表現が更新され、出力結果が生成されます。この革新により、マルチモーダル大規模言語モデルは、特に複雑なビデオシーンにおいて、ビデオの内容にさらに注意を払うことができ、主要な視覚要素を効果的にキャプチャして、テキスト生成の品質と関連性を向上させることができます。

図3

同時に、このモデルによって導入されたシリアル化されたビジュアルプロジェクターは、ビデオの時系列分析に新しい視点を提供します。現在のビデオフレームを処理するだけでなく、前のフレームの情報も活用できるため、ビデオコンテンツの一貫性と時間的論理が向上します。

ビジュアルプロジェクターの役割は、大規模な言語モデルがビジュアル入力とテキスト入力を融合して処理できるように、ビデオ機能を言語埋め込み空間にマッピングすることです。図 4 に示すように、初期の視覚プロジェクターでは通常、線形レイヤーまたはクエリ トランスフォーマー (Q-Former) を使用して、フレーム機能を言語トークンに直接変換します。しかし、これらの方法では時間的な関係が無視されるため、言語モデルによるビデオの包括的な理解が制限されます。 Vista-LLaMA は、線形投影レイヤーを通じてビジュアル トークンの時間的コンテキストをエンコードするシリアル化されたビジュアル プロジェクターを導入し、ビデオの動的な変化を理解するモデルの能力を強化します。これは、ビデオ コンテンツ分析の品質を向上させるために重要です。

図4

ベンチマーク結果

Vista-LLaMA は、複数のオープンソースのビデオ質問応答ベンチマークで優れたパフォーマンスを発揮します。ビデオ理解と言語生成能力を測定するための重要なベンチマークである NExT-QA および MSRVTT-QA テストで画期的なスコアを達成しました。ゼロショット NExT-QA テストでは、Vista-LLaMA は 60.7% の精度を達成しました。 MSRVTT-QA テストでは、現在のすべての SOTA 方式を上回る 60.5% の精度を達成しました。これらの結果は業界でも先進的なレベルであり、Video-ChatGPT や MovieChat などの他の SOTA モデルを大幅に上回っています。

図5

これらのテスト結果は、ビデオ コンテンツの理解と説明の生成における Vista-LLaMA の効率性と精度を実証しています。Vista-LLaMA はビデオ コンテンツを正確に理解して説明することができ、その強力な一般化能力を実証しています。これらの結果は、Vista-LLaMA が複雑なビデオ コンテンツを理解する能力を実証するだけでなく、マルチモーダル言語処理の分野における Vista-LLaMA の主導的地位を証明しています。

データセット: CineClipQA

図6

Vista-LLaMA とともに、CineClipQA と呼ばれる新しいデータセットが提案されました。

CineClipQA には、さまざまなスタイルと物語技法を持つ 5 つの映画から厳選された 153 のビデオ クリップが含まれています。各クリップは映画のストーリーの 1 つ以上の独自の部分を表現しており、16 個のカスタマイズされた質問が付随しており、合計 2,448 個の質問があります。質問は、システムプロンプトと質問の 2 つの部分に分かれています。

  • システム プロンプトは、現在のビデオ クリップ内の主要なキャラクターに関する基本情報を提供し、必要に応じてキャラクターの最初のアクションに関するプロンプトを提供します。
  • 問題は主に、認識、時間(予測)、空間(相互作用)、意図、知覚の 5 つのカテゴリに分類されます。具体的には、認識には場所と行動に関する質問が含まれます。時間性には、次の行動、前の行動、同時行動、予測された行動に関する質問が含まれます。空間性には、物体と人々の間の空間情報に関する質問が含まれます。意図には、行動の目的に関する 3 つの同様の質問が含まれます。最後に、知覚では感情認識を調べ、「どのように」(方法、態度など) を尋ねます。

この研究では、16 種類すべてについて詳細な説明と対応する例も提供しています。 CineClipQA データセットでは、Vista-LLaMA も優れたパフォーマンスを示しています。

図7

つまり、Vista-LLaMA が長いビデオ コンテンツの処理にもたらす大きな利点は、ビデオ分析の分野に新しいソリューション フレームワークをもたらし、ビデオ処理とコンテンツ作成における人工知能の開発を促進し、将来的にはマルチモーダル インタラクションと自動コンテンツ生成の分野に幅広い機会をもたらすことを告げています。

詳細については、プロジェクトページ[https://jinxxian.github.io/Vista-LLaMA]をご覧ください。

ByteDanceのインテリジェントクリエーションチームについて

知能創造チームは、ByteDanceのオーディオとビデオの革新技術とビジネスミドルプラットフォームであり、コンピュータービジョン、グラフィックス、音声、撮影と編集、特殊効果、クライアントとサーバーエンジニアリングなどの技術分野をカバーしています。ByteDanceの豊富なビジネスシナリオ、インフラストラクチャリソース、良好な技術協力環境の助けを借りて、最先端のアルゴリズム-エンジニアリングシステム-製品のリンク全体のクローズドループを実現し、社内のビジネスラインと外部の協力顧客に、業界最先端のコンテンツ理解、コンテンツ作成、インタラクティブな体験と消費機能、およびさまざまな形式での業界ソリューションを提供することを目指しています。

現在、知能創造チームはByteDance傘下のクラウドサービスプラットフォーム「Volcano Engine」を通じて、企業向けに技術力とサービスを開放している。

<<:  これほどリアルな効果を生み出すために、原作者を何人食べなければならなかったのですか?文生図はビジュアル「盗作」の疑い

>>:  素晴らしい瞬間を振り返りましょう! IEEE Spectrumが2023年の最もホットなAIストーリーをレビュー

ブログ    
ブログ    
ブログ    

推薦する

...

...

...

2021 年に IT 自動化と AI はどこに向かうのでしょうか?

IT自動化と人工知能技術の進歩と発展により、IT担当者の働き方は大きく変化しました。今年に入って新...

米連邦裁判所、AIが生成した芸術作品は著作権で保護できないと判決

米連邦地方裁判所のベリル・A・ハウエル判事は金曜日、AIによって生成された芸術作品は著作権保護を受け...

最終的にAIによってモザイクが見破られたとき、私たちのプライバシーはどこに隠されるのでしょうか?

[[239842]]モザイクといえば、多くのオタクがそれに腹を立てていると思います。1、2時間かけ...

マイクロソフトがAR仮想「翻訳機」をデモ、将来の翻訳業界に影響を与える

7月22日のニュース:AR技術は継続的な発展により、徐々に成熟してきました。他の新しいテクノロジーと...

顔認識は数十億ドル規模のブルーオーシャンだが、まだ解決すべき問題が2つある

今日は顔をスキャンしましたか? [[373513]]人工知能の急速な発展により、知能の時代が静かに到...

大規模なモデル開発スタックが準備完了です。

著者 | リチャード・マクマナス企画 | ヤン・ジェンWeb3 は Web2 を打倒することはできま...

人工知能は医療従事者の燃え尽き症候群を軽減すると期待されている

[[266831]]臨床医は世界で最も困難な仕事の一つです。彼らは、高齢の患者層に対応するために24...

人工知能は人間の知能ではない。まずは人工的なもの、そして知的なもの

人工知能に関しては、インターネット企業はすべてが「魔法のようだ」とよく言います。しかし、そうではあり...

70億のオープンソース数学モデルがGPT-4に勝利、中国チーム

7B オープンソースモデル、その数学的能力は数千億規模の GPT-4 を超えます。その性能はオープン...

...

アマゾンはドローン配送戦略に再び焦点を当て、労働組合は解雇の可能性に懸念を表明

アマゾンは、同社が「未来を実現する」のに役立つと主張する一連の新しいドローンとロボットを発表した。し...